Suite

Dissoudre des polygones dans QGIS ou Grass en de nouveaux polygones de tailles de population définies ?


J'ai un shapefile avec 3800 polygones représentant les plus petites régions administratives d'Irlande. Beaucoup d'entre eux, dans les zones rurales, ont des populations minuscules, moins de 100 personnes. Dans les zones urbaines, tous auraient des populations adéquates.

Pour chaque zone, j'ai un chiffre de population et divers autres attributs, qui peuvent tous être additionnés intelligemment pour donner des résultats valides pour les zones produites en combinant les zones plus petites.

Je dois fusionner les zones pour obtenir, disons, 500 ou 600 zones de population raisonnable. Je dois laisser les zones les plus grandes (en population) seules, dans la mesure du possible. Je préférerais de loin le faire automatiquement. Ceci est nécessaire pour l'ajustement du modèle, principalement.

J'ai examiné un certain nombre de questions de dissolution ici:

  • « Dissoudre par lots des polygones basés sur des attributs dans QGIS ou FWTools », je pense qu'il me faudrait savoir quelles zones fusionner, alors que c'est ce que je dois calculer.
  • « Manière pratique de gérer les polygones et leurs unions » et « Comment dissoudre les polygones d'un fichier de formes à l'aide d'outils open source ? » avoir le même problème.

Aucune suggestion?


Ce que vous essayez est connu sous le nom de Zone Design. Le travail définitif sur le sujet a été réalisé par Stan Openshaw à la fin des années 80 et au début des années 90. Voir la page d'accueil de zdes, malheureusement, ce code ne va probablement pas vous aider car il est écrit en AML et nécessite Arc/Info 7 pour s'exécuter. Mais les articles liés au bas de la page devraient vous aider à mettre en œuvre l'algorithme vous-même.

Une méthode connexe a été utilisée pour concevoir les zones de sortie des recensements britanniques de 2001 et 2011 par Dave Martin de l'Université de Southampton, mais je pense que cet algorithme n'a jamais été publié.


Il semble que la suggestion de @iant soit juste. Southampton a publié un logiciel qui fera probablement exactement ce dont j'ai besoin. Les détails sont sur :- http://www.geodata.soton.ac.uk/software/AZTool/


Dans GRASS GIS, il y a v.clean avec l'outil "rmarea : supprimer les petites zones, la limite la plus longue avec la zone adjacente est supprimée". Vous pouvez l'utiliser via le nouveau plugin Sextante.


L'outil de dissolution dans QGIS a une case à cocher qui vous permet d'exécuter l'outil "uniquement sur les entités sélectionnées".

Pour sélectionner les entités que vous souhaitez fusionner, exécutez simplement une requête sur votre couche (couche->requête), puis sélectionnez les résultats.


Dissoudre des polygones dans QGIS ou Grass en de nouveaux polygones de tailles de population définies ? - Systèmes d'information géographique

Tous les articles publiés par MDPI sont rendus immédiatement disponibles dans le monde entier sous une licence en libre accès. Aucune autorisation particulière n'est requise pour réutiliser tout ou partie de l'article publié par MDPI, y compris les figures et les tableaux. Pour les articles publiés sous licence Creative Common CC BY en libre accès, toute partie de l'article peut être réutilisée sans autorisation à condition que l'article original soit clairement cité.

Les articles de fond représentent la recherche la plus avancée avec un potentiel important d'impact élevé dans le domaine. Les articles de fond sont soumis sur invitation individuelle ou sur recommandation des éditeurs scientifiques et font l'objet d'un examen par les pairs avant leur publication.

L'article de fond peut être soit un article de recherche original, une nouvelle étude de recherche substantielle qui implique souvent plusieurs techniques ou approches, ou un article de synthèse complet avec des mises à jour concises et précises sur les derniers progrès dans le domaine qui passe systématiquement en revue les avancées les plus passionnantes dans le domaine scientifique. Littérature. Ce type d'article donne un aperçu des orientations futures de la recherche ou des applications possibles.

Les articles du Choix de l'éditeur sont basés sur les recommandations des éditeurs scientifiques des revues MDPI du monde entier. Les rédacteurs en chef sélectionnent un petit nombre d'articles récemment publiés dans la revue qui, selon eux, seront particulièrement intéressants pour les auteurs ou importants dans ce domaine. L'objectif est de fournir un aperçu de certains des travaux les plus passionnants publiés dans les différents domaines de recherche de la revue.


13.2 Étude de cas : magasins de vélos en Allemagne

Imaginez que vous démarriez une chaîne de magasins de vélos en Allemagne. Les magasins devraient être placés dans des zones urbaines avec autant de clients potentiels que possible. De plus, une enquête hypothétique (inventée pour ce chapitre, pas pour un usage commercial !) suggère que les jeunes hommes célibataires (âgés de 20 à 40 ans) sont les plus susceptibles d'acheter vos produits : c'est le public cible. Vous avez la chance de disposer d'un capital suffisant pour ouvrir un certain nombre de magasins. Mais où les placer ? Les sociétés de conseil (employant des analystes en géomarketing) factureraient volontiers des tarifs élevés pour répondre à de telles questions. Heureusement, nous pouvons le faire nous-mêmes à l'aide de données ouvertes et de logiciels open source. Les sections suivantes montreront comment les techniques apprises au cours des premiers chapitres du livre peuvent être appliquées pour entreprendre les étapes suivantes :

  • Rangez les données d'entrée du recensement allemand (section 13.3).
  • Convertissez les données de recensement tabulées en objets raster (Section 13.4).
  • Identifier les zones métropolitaines à forte densité de population (section 13.5).
  • Téléchargez des données géographiques détaillées (depuis OpenStreetMap, avec données osm) pour ces zones (section 13.6).
  • Créez des rasters pour évaluer la désirabilité relative de différents emplacements à l'aide de l'algèbre cartographique (section 13.7).

Bien que nous ayons appliqué ces étapes à une étude de cas spécifique, elles pourraient être généralisées à de nombreux scénarios de localisation de magasins ou de fourniture de services publics.


Dissoudre des polygones dans QGIS ou Grass en de nouveaux polygones de tailles de population définies ? - Systèmes d'information géographique

Photographie à partir de plates-formes aéroportées.

Un type d'instruction de recherche de données qui utilise les opérateurs "and," "or," et "not." Il peut être utilisé pour sélectionner certains groupes de données, comme toutes les données contenues dans une certaine province, ou toutes les données pour femmes en âge de procréer.

Zone créée en spécifiant une distance à partir d'un point, d'une ligne ou d'un polygone sur une carte. Peut être utilisé pour identifier des entités géographiques qui se trouvent à l'intérieur ou à l'extérieur d'une certaine distance d'une autre entité.

Crée des polygones tampons à une distance spécifiée autour des entités en entrée. Un fondu enchaîné facultatif peut être effectué pour supprimer les tampons qui se chevauchent dans un système SIG. (Source : Institut de recherche sur les systèmes environnementaux [ESRI])

La zone de chalandise est la zone à partir de laquelle un établissement de santé attire les patients. Un moyen simple d'estimer une zone de chalandise est de définir un rayon au-delà duquel les individus sont peu susceptibles d'accéder aux services offerts dans cette structure.

Une carte qui utilise des couleurs ou des ombrages pour afficher des données attributaires pour des zones géographiques plutôt que pour des points. Pour afficher des valeurs qui tiennent compte des différences de taille des zones géographiques, les données doivent d'abord être normalisées (p. Les cartes choroplèthes sont plus informatives visuellement lorsqu'elles affichent entre deux et sept classes de données en utilisant des couleurs ou des nuances qui s'assombrissent progressivement à mesure que les valeurs augmentent.

Pour la collecte de données des enquêtes démographiques et de santé (EDS), l'emplacement géographique est collecté sur la base de ce que l'on appelle le « cluster ». pour enquête. Une seule localisation GPS est enregistrée au centre de la zone de peuplement du cluster. La collecte d'un seul point pour le cluster réduit considérablement le risque de compromettre la confidentialité des répondants, mais est suffisante pour permettre l'intégration de plusieurs ensembles de données pour une analyse plus approfondie. (Source : MESURER DHS)

Le résultat obtenu en protégeant les données et les informations qui pourraient identifier les individus d'une manière qui pourrait causer des dommages ou violer les accords conclus avec eux. Pour plus d'informations, voir la publication MEASURE Evaluation, "Overview of Issues Concerning Confidentiality and Spatial Data" : http://www.cpc.unc.edu/measure/resources/publications/wp-08-106.

Accord conclu entre un organisme de santé publique et un individu concernant la protection et la non-divulgation des informations personnellement identifiables.

Un système de coordonnées est un système de référence utilisé pour représenter les emplacements d'entités géographiques, d'images et d'observations telles que les emplacements GPS dans un cadre géographique commun. (Source : ESRI)

CSV (valeurs séparées par des virgules)

Un type d'extension de fichier de feuille de calcul couramment utilisé par les logiciels open source. Les données en lignes et en colonnes peuvent être exportées dans ce format à partir d'Excel et importées dans QGIS.

Demande et utilisation de données pour améliorer la prise de décision fondée sur des données probantes pour la santé publique. Les activités qui favorisent la demande et l'utilisation de données (DDU) impliquent une approche systématique qui applique des pratiques exemplaires éprouvées et efficaces et des outils appropriés pour aider à augmenter la demande de données sur le système de santé et garantir que les informations sont utilisées dans un processus de prise de décision fondé sur des preuves. (Source : Évaluation MESURE)

Un dictionnaire de données est une description textuelle des tables et des champs d'une base de données. Il fournit une base solide pour la rédaction de programmes de nettoyage des données et un langage commun pour faciliter les communications entre les gestionnaires et les analystes. (Source : Centres américains de contrôle et de prévention des maladies [CDC])

Un schéma de données est une description de la façon dont les données d'une base de données informatique sont organisées en tables et en champs. Il identifie les valeurs acceptables pour les champs individuels. Un moyen courant de capturer un schéma de données consiste à utiliser un dictionnaire de données. Un schéma de données approprié garantit que les données sont standardisées et complètes, et qu'elles peuvent être utilisées pour créer des cartes précises.

Un ensemble de points de contrôle, qui sont des points sur la surface de la Terre avec des emplacements connus, et un modèle mathématique correspondant utilisé pour approximer la forme de la Terre et pour calculer l'emplacement de tout point donné sur cette forme. Le système de référence utilisé pour le système de positionnement global est connu sous le nom de système géodésique mondial 1984 ou WGS 84.

Un format numérique pour stocker la latitude et la longitude qui facilite l'importation de coordonnées dans un SIG et la réalisation de calculs basés sur la localisation. Par exemple, une comparaison des formats de latitude et de longitude pour l'emplacement de la Bibliothèque d'Alexandrie en Égypte est la suivante :

Degrés, minutes, secondes : 31°12'31.93"N, 29°54'33.62"E

Degrés décimaux : 31.208870, 29.909339

Une carte qui utilise des points pour afficher des données sur une carte. Chaque point représente généralement une quantité donnée d'une certaine occurrence (pas nécessairement une), telle que 10 personnes par point.

Institut de recherche sur les systèmes environnementaux (ESRI)

Le leader des logiciels et services SIG commerciaux. Basé à Redlands, Californie (www.esri.com).

Une méthode de classification des données qui fonctionne souvent mieux pour les données continues, c'est-à-dire pas très asymétriques. Chaque plage (intervalle) de valeurs résultante sera approximativement égale, mais il peut y avoir un nombre très différent d'observations par classe. L'attention sera davantage portée sur les valeurs aberrantes. La carte résultant de cette méthode de classification des données aura tendance à mettre en évidence toutes les données avec des valeurs particulièrement élevées ou faibles, et peut montrer une répartition inégale des couleurs.

Une ligne imaginaire encerclant la Terre, à égale distance des pôles, qui délimite zéro degré de latitude. Le méridien principal divise la terre en hémisphères nord et sud.

Une distance calculée à l'aide d'une ligne droite pour relier les points de début et de fin.

Une plate-forme logicielle de Microsoft Corporation qui permet aux utilisateurs d'organiser les données en lignes et en colonnes (une feuille de calcul) et d'effectuer des calculs sur les données. Il fait partie du célèbre progiciel « Office » de Microsoft. Les fichiers produits avec ce logiciel portent généralement l'extension de nom ".xls" ou ".xlsx".

Analyse exploratoire des données spatiales

L'analyse exploratoire des données spatiales (ESDA) applique des outils statistiques à l'évaluation des données spatiales. Une technique de base pour l'ESDA consiste à relier les observations dans un histogramme, une boîte à moustaches et une carte pour détecter des modèles spatiaux, tels que des valeurs aberrantes (source : Anselin, 2005). Une boîte à moustaches est un résumé graphique des mesures statistiques suivantes : médiane, quartiles supérieur et inférieur, et valeurs de données minimales et maximales (source : NETMBA). Un excellent outil gratuit pour ESDA est GeoDa ( http://geodacenter.asu.edu/ ).

Processus consistant à utiliser un algorithme pour décompresser un fichier « zippé », afin qu'il puisse être utilisé dans un programme. Cela doit être fait avant qu'un fichier compressé puisse être entièrement accessible. Il est préférable d'extraire dans un nouveau dossier, car plusieurs fichiers peuvent être compressés ensemble et, lors de l'extraction, ils seront placés dans un emplacement gérable.

Le processus de stockage, de nommage et d'organisation des fichiers dans un système informatique.

Variables codées dans un tableau de données géographiques qui indiquent la position, soit en un point, soit dans une zone. Il peut s'agir de codes indiquant des coordonnées latitude/longitude ou des zones administratives. Il s'agit d'une version codée d'un identificateur géographique.

Un nouveau type de stockage de données géographiques inventé par ESRI au début des années 2000. Une géodatabase prend l'apparence d'un dossier rempli de nombreux fichiers, lorsqu'elle est affichée sous Windows, et peut donc être facilement déplacée ou copiée. Il peut comprendre différents types d'ensembles de données géographiques qui suivent des règles spécifiques, ce qui peut être utile pour éditer les données et pour effectuer des analyses avancées. Il s'agit du principal type de données actuellement utilisé dans ArcGIS, et son contenu peut être créé et affiché à l'aide d'un système de gestion de fichiers ESRI appelé ArcCatalog.

Système de coordonnées géographiques (GCS)

Un système de coordonnées basé sur une surface sphérique tridimensionnelle. En raison du fait qu'il est défini par rapport à la surface tridimensionnelle plus naturelle d'un globe, un GCS est considéré comme "non projeté" plutôt que "projeté".

Informations décrivant l'emplacement et les attributs des choses, y compris leurs formes et leur représentation. (Source : ESRI [Documentation ArcGIS])

Un identificateur géographique est tout élément d'information qui indique l'emplacement géographique ou spatial des caractéristiques du paysage, comme la latitude et la longitude, l'adresse postale ou le nom de la division administrative (c'est-à-dire la province, le district, le comté, etc.). Les identificateurs géographiques communs jouent un rôle essentiel dans la fusion de données provenant de différentes sources.

Système(s) d'information géographique (SIG)

Un système informatique utilisé pour collecter, stocker, gérer, analyser, afficher et distribuer des données géographiques (points, lignes et polygones référencés à la surface de la Terre) et leurs attributs (par exemple, identifiant unique, nom, type, date collectés, etc.). (Source : Évaluation MESURE)

Une représentation graphique d'un emplacement : par exemple, un point pour représenter l'emplacement d'une cheminée ou un polygone pour représenter l'emplacement d'un panache toxique.

La géographie est l'étude des modèles à la surface de la Terre et des causes de ces modèles. Les modèles peuvent être le résultat de forces naturelles ou d'activités humaines. Cette entrée du glossaire est une synthèse de définitions provenant de plusieurs sources, car de nombreuses définitions de la géographie mettent l'accent sur des sous-domaines de la géographie et peuvent avoir une portée trop étroite. (Source : Évaluation MESURE)

Affecté à un emplacement géographique.

Système de positionnement global (GPS)

Système satellitaire créé à l'origine par le département de la Défense des États-Unis pour fournir des données précises sur la position, la vitesse et le temps aux utilisateurs militaires et civils. Les coordonnées sont généralement données en degrés numériques par rapport à l'équateur et au premier méridien.

Un globe virtuel de Google (www.google.com). Il possède la plus grande base d'utilisateurs et la bibliothèque d'images satellite actuellement disponibles, et peut être téléchargé à partir de http://earth.google.com .

GPS signifie « système de positionnement global » (voir l'entrée séparée ci-dessus). Un récepteur GPS est un appareil portatif qui peut détecter les signaux des satellites composant le GPS, les utiliser pour déterminer l'emplacement de l'observateur sur la surface de la terre et stocker ces informations pour une utilisation ultérieure.

Une extension de fichier qui désigne le format d'échange GPS. Il s'agit d'un schéma spécial utilisé par de nombreuses unités GPS pour stocker les données des points de cheminement. Ces fichiers peuvent être copiés ou partagés pour désigner un ensemble d'emplacements à la surface de la Terre. Ils peuvent également être lus par QGIS.

Informations sur une caractéristique de la surface de la Terre qui sont collectées sur le terrain. En télédétection, le processus d'acquisition de données de vérité terrain est appelé « vérité terrain ».

Système(s) d'information sur la gestion de la santé (SIGS)

Un système planifié de collecte, de traitement, de stockage, de diffusion et d'utilisation des informations relatives à la santé pour exécuter les fonctions de gestion. Il se compose de personnes, d'outils (sur papier et électroniques) et de procédures pour recueillir, trier et distribuer des informations précises et opportunes aux décideurs. (Source : Kotler et Keller, 2006)

Un histogramme est un résumé graphique montrant le nombre de points de données se situant dans différentes plages. Il fournit une approximation approximative de la distribution de fréquence des données. (Source : NETMBA)

Le satellite IKONOS est un satellite haute résolution exploité par GeoEye (www.geoeye.com).

Images ou représentations graphiques. Le terme est utilisé en télédétection et en SIG pour décrire des représentations numériques de la surface de la Terre. (Source : FWIE)

Carte qui utilise des courbes de niveau pour montrer le changement d'une variable continue sur la surface terrestre, telle que la température, les précipitations ou l'altitude.

Estimation de la densité du noyau (KDE)

Une technique géographique qui disperse des phénomènes discrets dans un espace continu sans les contraintes des frontières administratives. Il fournit une représentation plus réaliste de la répartition des personnes et des services dans un paysage. (Source : Spencer et Angeles 2007)

KML, qui signifiait à l'origine Keyhole Markup Language, est un format de fichier basé sur XML qui peut incorporer du texte descriptif, des liens d'image et des informations géographiques associées à des points, des lignes et des polygones. Il s'agit d'un standard ouvert officiellement nommé OpenGIS® KML Encoding Standard (OGC KML). Les fichiers KML peuvent être lus par Google Earth et plusieurs logiciels de cartographie. (Source : Open Geospatial)

Ce qui peut être vu à distance, à partir de données satellitaires ou de photographies aériennes. Les techniques de cartographie actuelles de la couverture terrestre ne seraient pas possibles aujourd'hui sans des jalons tels que la publication de James Anderson en 1976, A Land Cover Classification System for Use with Remote Sensor Data. (Source : CPC et USGS)

Angle entre une ligne reliant le centre de la Terre à l'équateur et une ligne reliant le centre de la Terre à un point de la surface de la Terre au nord ou au sud de l'équateur le long d'une ligne de longitude. La latitude varie de 0 degré à l'équateur à 90 degrés aux pôles. La latitude est positive au nord de l'équateur (0 à 90 degrés) et négative en dessous (0 à -90 degrés).Les lignes de latitude constante peuvent être visualisées sous forme de cercles tracés autour de la Terre horizontalement parallèlement à l'équateur.

Angle entre (a) une ligne reliant le centre de la Terre à l'équateur à un méridien principal, tel que le méridien qui passe d'un pôle à l'autre par Greenwich, en Angleterre (également connu sous le nom de méridien principal ou méridien de Greenwich), et (b ) une ligne reliant le centre de la Terre à l'équateur à son intersection avec un méridien passant par le point d'intérêt. La longitude va de 0 degré au méridien principal à 180 degrés le long du méridien de l'autre côté de la Terre. Le 180e méridien est à peu près parallèle à la ligne de date internationale, où la date change au fur et à mesure que les voyageurs traversent vers l'est ou l'ouest. Les lignes de longitude constante peuvent être visualisées comme des demi-cercles dessinés sur la surface de la Terre verticalement d'un pôle à l'autre.

La géographie médicale applique la discipline de la géographie à l'étude des modèles de santé publique ou humaine. (Source : Meade et Emch, 2010)

Données sur les données. Les métadonnées contiennent généralement des informations sur le moment où un ensemble de données a été collecté ou créé et par qui. Les métadonnées géospatiales contiennent également des informations sur la projection et les données. Parfois, les métadonnées sont stockées dans le fichier de données principal, mais elles peuvent également se trouver dans leur propre fichier séparé. En tant que meilleure pratique, les métadonnées doivent être fournies avec tout ensemble de données géographiques. Les normes internationales pour les métadonnées géographiques sont disponibles en tant qu'ISO 19115.

Deux images ou plus prises simultanément, mais chaque image prise dans une partie différente du spectre électromagnétique. Le spectre électromagnétique est la gamme totale de longueurs d'onde ou de fréquences de rayonnement électromagnétique, s'étendant des ondes radio les plus longues aux rayons cosmiques connus les plus courts. Une partie du spectre électromagnétique correspond à la lumière visible à l'œil nu. (Source : CCT)

Infrastructure nationale de données

L'infrastructure nationale de données comprend toutes les données disponibles pour les décideurs au niveau national ainsi que les personnes, les politiques et les systèmes nécessaires pour collecter, stocker, gérer, analyser et diffuser les données à des fins de prise de décision. (Source : Évaluation MESURE)

Agence nationale de cartographie (NMA)

Organisation nationale responsable de la création et de la maintenance de séries de cartes et de données connexes pour un pays. Une bonne source de contacts NMA est le site Web des Nations Unies sur les limites administratives du deuxième niveau (UN SALB) (www.unsalb.org).

Infrastructure nationale de données spatiales (NSDI)

Les "technologies, politiques et personnes nécessaires pour promouvoir le partage des données géospatiales à tous les niveaux de gouvernement, les secteurs privé et à but non lucratif et la communauté universitaire. L'objectif de cette infrastructure est de réduire la duplication des efforts entre les agences, d'améliorer la qualité et de réduire les coûts liés à l'information géographique, de rendre les données géographiques plus accessibles au public, d'augmenter les avantages de l'utilisation des données disponibles et d'établir des partenariats clés avec [ parties prenantes] pour augmenter la disponibilité des données. » (Source : FGDC)

Une méthode de classification des données qui attribue des données à des classes de telle sorte que la variance au sein des classes est minimisée tandis que la variance entre les classes est maximisée. Le principal avantage de cette méthode est qu'elle prend en compte la distribution naturelle des données avant d'affecter les observations aux classes. Un inconvénient est que les pauses entre les cours pourraient être irrégulières et donc non intuitives

Méthode d'analyse géographique qui calcule des mesures le long d'un réseau d'entités telles que des routes, des voies ferrées ou des rivières. Il peut être utilisé pour étudier l'accessibilité des services de santé.

L'"élément d'image" est la surface au sol correspondant à un seul élément d'un ensemble de données d'images numériques. (Source : CCT)

Tout type de fonctionnalité ajoutée (souvent tierce) dans QGIS. Ce sont des programmes séparés plus petits qui peuvent être utilisés pour améliorer les fonctionnalités de base de QGIS. Il existe un « Référentiel de plug-ins » QGIS où ces programmes peuvent être téléchargés et où ils sont contrôlés par un groupe qui gère le logiciel QGIS lui-même.

Le degré auquel l'emplacement d'un utilisateur peut être déterminé avec précision. Les résultats des données GPS peuvent varier en fonction de la disposition des satellites au-dessus.

Une ligne imaginaire passant par Greenwich, en Angleterre, qui délimite zéro degré de longitude. Le méridien principal divise la terre en hémisphères est et ouest.

Système de coordonnées projetées

Un système de coordonnées dans lequel des emplacements sur la surface tridimensionnelle de la Terre sont transformés ou "projetés" sur une surface plane bidimensionnelle pour affichage, mesure ou autre analyse.

Processus au cours duquel des emplacements sur la surface tridimensionnelle de la Terre sont transformés en une surface plane bidimensionnelle pour affichage, mesure ou autre analyse. Toute méthode de projection compromettra d'une manière ou d'une autre la distance, la direction ou la forme, mais constitue une étape nécessaire si des distances en ligne droite ou des zones 2D (plates) doivent être calculées lors de l'analyse spatiale. Un type courant de projection est l'UTM (Universal Transverse Mercator), dans lequel les distances peuvent être mesurées en mètres.

Une carte qui utilise différentes tailles de symboles (souvent des cercles) pour afficher des données attributaires pour des zones géographiques ou des points.

Un logiciel gratuit et open source (FOSS) qui peut lire des données géographiques et les afficher sur une carte. Les données vectorielles et raster peuvent être lues par QGIS. C'est un programme puissant mais convivial qui a une clientèle croissante. Il a de nombreuses caractéristiques en commun avec le programme ArcGIS d'ESRI et est également bon pour l'analyse de données spatiales.

Méthode de classification des données qui tente de placer un nombre égal de valeurs dans chaque classe. Par exemple, s'il y avait 50 observations, chacune avec une valeur différente de sorte qu'aucun doublon n'ait été rencontré lors de la classification des données, les regrouper en cinq classes (également appelées quintiles) donnerait 10 observations par classe. Les quantiles sont utiles pour classer les données ordinales (ordre de rang) et pour comparer des cartes avec le même nombre de classes. Les valeurs aberrantes seront moins visibles et l'attention se concentrera sur les classements relatifs. La carte résultant de cette méthode de classification des données aura tendance à produire une répartition uniforme des couleurs de la carte. Attention : Si les données sont très asymétriques, la méthode de classification des quantiles placera toujours les données dans le nombre de classes spécifié. Ce forçage de données inégalement réparties dans des classes contenant un nombre égal d'observations pourrait conduire à la fausse impression que les données sont normalement réparties.

Les 1er, 2e et 3e quartiles sont respectivement les 25e, 50e et 75e centiles. (Source : Statistics.com)

Données spatiales stockées dans un ordinateur sous la forme d'une série de valeurs dans un motif de grille (pixels). Ce type de données nécessite généralement beaucoup plus d'espace de stockage informatique que les données vectorielles. Un plus grand nombre de pixels sur une zone plus petite offre une plus grande résolution spatiale mais prend beaucoup plus de mémoire. Ce type de données peut montrer un changement continu sur une surface, comme la couverture terrestre. Les satellites collectent des données dans ce format.

La science, la technologie et l'art d'obtenir des informations sur des objets ou des phénomènes à distance (c'est-à-dire sans être en contact physique avec eux). (Source : CCT)

La Terre est trop grande pour être dessinée sur une carte sans réduire sa taille. Cette réduction est exprimée en échelle de carte, qui est le rapport de la distance sur une carte à la distance réelle à la surface de la Terre. En conséquence, une carte à petite échelle affiche une petite quantité de détails, mais couvre une grande zone géographique. Une carte à grande échelle montre une grande quantité de détails, mais pour une petite zone. L'échelle peut être exprimée graphiquement sous forme de barre d'échelle, ou par écrit en utilisant du texte ou des formes numériques : (i) Texte : 1 pouce = 24 000 pouces OU 1 pouce = 2 000 pieds ou (ii) Numérique : 1:24 000.

Format de données spatiales développé à l'origine par ESRI et largement utilisé aujourd'hui. Un fichier de formes est en fait une collection d'au moins trois fichiers : (i) Fichier principal (filename.shp), qui contient des informations géométriques pour les caractéristiques d'intérêt sur une base enregistrement par enregistrement. (ii) Fichier d'index (filename.shx), qui identifie le décalage de position de chaque enregistrement dans le fichier principal depuis le début du fichier principal. (iii) fichier dBASE (filename.dbf), qui contient une table de données attributaires pour chaque entité géométrique décrite dans le fichier principal. Un fichier de formes peut également avoir un fichier de projection (filename.prj) pour spécifier le système de coordonnées et la référence. Bien qu'un fichier de projection soit facultatif par rapport à la spécification technique du fichier de formes, il est essentiel pour une analyse géographique précise.

Données qui décrivent la forme géographique et l'emplacement des entités par rapport à l'espace physique défini par la surface de la Terre. En termes de forme, les données spatiales peuvent prendre la forme de points, de lignes ou de polygones. En ce qui concerne la localisation, les données spatiales sont organisées et affichées selon des systèmes de coordonnées et des systèmes de référence.

Identifiant géographique unique

Nom ou code qui identifie de manière unique une entité géographique. Les exemples incluent le nom de la province ou du district pour un ID de point de cheminement de région administrative et une combinaison latitude/longitude pour un code P de point GPS (code de lieu) du Bureau des Nations Unies pour la coordination des affaires humanitaires (UN OCHA). Les identifiants géographiques uniques sont essentiels pour distinguer les entités géographiques individuelles et garantir l'exactitude des données d'attributs pour ces entités, car les identifiants non uniques peuvent créer de la confusion et produire des erreurs pendant toutes les phases d'utilisation des données. (Source : Évaluation MESURE)

La connexion matérielle standard la plus largement utilisée pour connecter des périphériques externes tels que des disques durs, des lecteurs flash, des appareils photo ou des téléphones à un ordinateur.

Données spatiales stockées dans un ordinateur sous forme de points, de lignes et de polygones. Dans le cas d'une ligne droite, les coordonnées d'un point, la distance et la direction jusqu'à un deuxième point et les coordonnées du deuxième point seront toutes stockées. Il s'agit généralement de la méthode la plus efficace de stockage de données spatiales.

Une représentation 3D de la Terre qui offre la possibilité de zoomer et dézoomer à travers une grande variété d'échelles et de changer l'angle de vue. Les globes virtuels combinent souvent des images satellite collectées à différents niveaux de détail avec de vraies photographies aériennes ou même au niveau de la rue. Ils permettent également souvent des superpositions supplémentaires telles que des points, des cartes ou des images.

Un point unique à la surface de la Terre, indiqué à l'aide d'une paire de coordonnées x/y. Ces points peuvent être stockés sur un récepteur GPS.

XML, qui signifie eXtensible Markup Language, est un format de texte simple et flexible qui joue un rôle de plus en plus important dans l'échange de données sur le Web. (Source : w3)

Processus de compression d'un fichier (ou d'un groupe de fichiers) à l'aide d'un algorithme pour stocker les données plus efficacement. Un fichier « zippé » est généralement plus petit qu'un fichier décompressé et constitue un bon moyen de regrouper des fichiers dans un package, afin de les envoyer à un collègue.


2. Matériels et méthodes

2.1 Sélection des zones d'étude et théorie de la transition forestière

Avec la sélection des zones d'étude, nous visions à inclure trois pays qui représentaient autant de variabilité pantropicale que possible, en ce qui concerne leurs taux de FC et de déforestation, mais aussi en tenant compte de leurs conditions biophysiques, géographiques, socio-économiques et démographiques. Un facteur clé derrière ce processus de sélection était la situation de chaque pays dans la courbe de transition forestière [20], lorsqu'elle est observée à l'échelle nationale (voir S1 Fig). Sur cette base, nous avons sélectionné les trois pays suivants :

  1. La Zambie est un plateau enclavé du centre-sud de l'Afrique, qui en 2010 était encore au stade pré/début de la transition forestière [11] avec un FC élevé (65,4%) et des taux de déforestation modérés (-0,3% · an -1 ) [41]. La Zambie a une densité de population, une espérance de vie à la naissance, un PIB par habitant et un IDH relativement faibles [42-44]. Selon Global Forest Watch, les taux de déforestation en Zambie ont augmenté et accéléré de manière significative au cours des dix dernières années [1]. Alors que le pays a perdu 850 kha de couverture arborée avec une canopée supérieure à 10 % au cours de la période 2001-2009, cette perte a plus que doublé pour atteindre 1,96 Mha au cours de la période 2010-2018. Cette déforestation accélérée pourrait indiquer que la Zambie est déjà entrée dans sa transition précoce, réduisant son FC total à 62 % en 2015 [45]. À la suite de Curtis et al. [12], la majeure partie de cette déforestation était due à l'agriculture itinérante. Les autres moteurs pertinents identifiés de la déforestation (et de la dégradation) en Zambie sont le développement de l'exploitation minière et des infrastructures, l'extraction de bois, la production de charbon de bois et les incendies de forêt [46].
  2. L'Équateur est un hotspot de méga-diversité qui abrite les Andes et le bassin amazonien, dans la partie Pacifique du nord-ouest de l'Amérique du Sud. L'Équateur a réduit la FC à environ 50 %, mais la déforestation est toujours en cours depuis la fin des années 90 à des taux relativement élevés (-0,6 % · an -1 ) [41,47]. Le contexte forestier du pays peut ainsi être un exemple clair de « zone frontière » ([17]). L'Équateur a une densité de population deux fois plus élevée que la Zambie, avec une part de 63 % de la population urbaine et un PIB et un IDH relativement élevés [42-44]. Le principal moteur de la déforestation en Équateur est à nouveau l'agriculture itinérante [12], ainsi que l'élevage à petite échelle et, de manière plus locale, la production de produits de base comme l'huile de palme [48].
  3. Les Philippines sont un archipel d'Asie du Sud-Est composé de plus de 7 000 îles. Ce pays est censé avoir réalisé une augmentation nette de FC de 0,8% · an -1 entre 1990 et 2015, avec moins de 30% de FC restants en 2015 [41]. Les Philippines sont très densément peuplées, présentent la densité routière la plus élevée parmi les trois pays et une part de 41 % des terres agricoles [42-44]. Selon Global Forest Watch et Curtis et al. [1,12], la perte de couvert arboré aux Philippines est principalement liée aux produits de base et à l'expansion de l'agriculture. Les pratiques forestières et l'urbanisation jouent également un rôle plus important dans la déforestation qu'en Zambie et en Équateur. La situation forestière aux Philippines est donc un exemple d'une claire « mosaïque forêt-agriculture » ​​ou d'une phase de transition forestière tardive, lorsqu'elle est observée au niveau national [11,17].

2.2 Unités d'observation et niveaux d'analyse

Nous avons subdivisé chacun des pays sélectionnés en trois niveaux spatiaux d'analyse emboîtés (niveau macro, méso et micro), liés à leur configuration administrative juridique hiérarchique (Fig. 1). Chacun de ces trois niveaux d'analyse correspond à un de jure structure de gouvernance, avec des compétences comparables en matière de conception et de mise en œuvre de politiques forestières dans les trois pays [49,50].

Les pays sont affichés à la même échelle avec des tailles proportionnelles.

Pour la Zambie, 9 provinces comprennent le niveau macro et 71 districts le niveau méso. Nous avons téléchargé les données géoréférencées pour les deux niveaux à partir de la base de données GADM [51]. Le troisième niveau (micro-) représente des approximations de 1 358 limites de quartiers et de circonscriptions basées sur des informations imprimées de la Commission électorale de Zambie (ECZ) pour lesquelles un fichier polygonal produit par Eubank (2014) [52] a été utilisé. La principale institution responsable de la gestion des ressources forestières en Zambie est le Département des forêts du Ministère des terres, des ressources naturelles et de la protection de l'environnement (MLNREP). La Zambie connaît un processus de décentralisation nationale qui vise à accroître le pouvoir et les obligations des districts (niveau méso) afin d'améliorer la qualité de la prestation de services au niveau infranational [53-56]. Dans ce sens, certains changements se sont produits au cours de la dernière décennie concernant le cadre juridique national du secteur forestier, comme l'inclusion de réglementations forestières locales et d'autres formes de gestion forestière locale : par ex. Gestion forestière conjointe (JFM) ou foresterie communautaire [57–60].

Dans le cas de l'Équateur, les unités administratives sélectionnées pour le macro-niveau sont les 24 provinces plus les trois zones non délimitées en une seule unité. Le niveau méso comprend 224 comtés et le niveau micro 1 024 paroisses. Nous avons téléchargé les données concernant ces limites à partir de la base de données du National Institute of Statistics and Census [51,61]. Bien que les principales actions concernant la politique et la gestion forestières en Équateur soient essentiellement planifiées et coordonnées au niveau national par le Ministère de l'Environnement (MAE) [62], ces trois niveaux d'organisation territoriale (provinces, comtés, paroisses), dont le rôle législatif-politique est reconnu par la Constitution équatorienne actuelle [63] et le Code organique d'organisation territoriale, d'autonomie et de décentralisation [64], participer activement à la mise en œuvre des politiques des MAE ou d'autres programmes de gestion forestière conformément aux lois nationales.

Pour les Philippines, les trois niveaux juridictionnels d'analyse comprennent 17 régions (niveau macro), 81 provinces (niveau méso) et 1 652 municipalités (niveau micro). Les ensembles de données géographiques ont été extraits de la base de données GADM [51] et sont basés sur les limites officielles de la NAMRIA (National Mapping and Resource Information Authority), qui peuvent être acquises au Philippine Geoportal System [65]. Au niveau national, le principal organisme gouvernemental qui s'occupe de la planification de la gestion forestière aux Philippines est le Forest Management Bureau (FMB), qui appartient au Département de l'environnement et des ressources naturelles (DENR). Le DENR a des bureaux dans toutes les régions administratives (niveau macro), et quelques bureaux qui opèrent dans la plupart des provinces (PENRO, au niveau méso) et dans certaines villes ou municipalités (CENRO, au niveau micro) [66,67 ].

2.3 Sélection des variables : Construction d'une base de données spatiale

Nous avons construit une géodatabase avec le support du logiciel et des outils du Système d'Information Géographique (SIG) : QGIS 3.4. [68]. Cette géodatabase (voir fichier S1) comprenait les limites spatialement explicites téléchargées pour les trois niveaux de juridiction dans les trois pays. Dans les étapes suivantes, nous avons inclus les informations sur la FC et les facteurs pertinents de déforestation et de reboisement (réponse et variables explicatives) pour chacune de ces unités et niveaux d'analyse, comme décrit dans les sous-chapitres suivants.

2.3.1 Variable de réponse : couvert forestier (CF).

Nous avons extrait les informations FC pour chaque unité administrative (trois pays et trois niveaux) de la carte nationale d'occupation des sols la plus récente disponible au moment de la réalisation de cette étude [47,69,70] (tableau 1). Par conséquent, nous avons mené une analyse transversale, qui a supposé que les modèles de développement de CF peuvent être détachés de l'échelle temporelle, car ils dépendent du développement socio-économique [20,21,71]. Les cartes nationales d'occupation du sol, contrairement aux ensembles de données mondiaux comme [1,72,73], présentaient des avantages tels qu'une résolution et une précision plus élevées pour les régions d'intérêt, tout en tenant compte des caractéristiques particulières de l'occupation du sol de chaque contexte tropical.

Ainsi, nous avons post-classifié et harmonisé les définitions des forêts et de la couverture terrestre, en agrégeant les classes d'arbres et de FC existantes en seulement trois principaux types de couverture terrestre : la zone forestière (FA), la zone de végétation forestière potentielle (FApot) et la zone de végétation forestière non potentielle. (Non-FApot). Nous avons obtenu la variable dépendante FC en normalisant la superficie forestière (FA) comme une fraction de la superficie forestière potentielle d'une unité (FApot) (tableau 2). FC est donc une proportion de la superficie forestière totale de chaque unité juridictionnelle sur sa superficie potentiellement boisée, plutôt que sur sa surface totale. Le concept de superficie potentiellement boisée tel qu'interprété dans cette étude vise à estimer la superficie forestière maximale qui pourrait être atteinte dans un laps de temps limité, à l'instar de l'approche de Köthke et al. (2013) [26]. Nous avons calculé cela en agrégeant tous les types de couverture végétale pertinents, tandis que les classes non adaptées à la végétation forestière ont été par conséquent exclues (par exemple, les plans d'eau, les glaciers ou les zones dénudées). Les infrastructures bâties et artificielles n'ont pas été incluses dans cet agrégat, en supposant que les zones urbaines sont plutôt peu susceptibles de connaître une dynamique rapide d'occupation des sols [74,75]. Cela permet à la plage de la variable dépendante de varier entre 0 et 100 %.

2.3.2 Variables explicatives : Facteurs de changement du couvert forestier.

Nous avons sélectionné sept variables explicatives, qui comprenaient des éléments liés aux aspects physio-géographiques, démographiques et socio-économiques que nous attendions d'influencer la FC (tableau 2). Ces variables ont souvent été identifiées et discutées comme étant principalement influentes et uniformes dans les pays tropicaux par les auteurs précédents (voir, par exemple, [10,13]).

Nous avons testé l'influence de la surface totale (ATOT), car les différentes tailles d'unités administratives peuvent être soumises à des différences de pression foncière, de processus politiques, ainsi que d'options pour le commerce et la coopération [26]. Nous avons extrait l'étendue totale de chaque unité administrative à partir des limites spatiales utilisées pour définir les unités d'analyse de l'étude. Nous avons effectué tous les calculs de superficies ou de degrés de pente (voir paramètre FL) après avoir reconverti les fichiers spatiaux sources dans le système de coordonnées projetées Universal Transverse Mercator (UTM) correspondant. Nous avons utilisé les zones UTM 35S, 17S et 51N pour la Zambie, l'Équateur et les Philippines respectivement.

La zone potentielle de végétation (PVA) décrit la part de zone potentiellement boisée (FAPOT) par rapport à la surface totale (ATOT) de l'unité administrative analysée. La PVA peut aller de 0 à 100 % et des valeurs élevées signifient un potentiel de superficie forestière plus importante dans l'unité, mais pas nécessairement son existence [26]. Par exemple, une grande région de l'Amazonie dont une grande partie de sa superficie est couverte de forêts indigènes se classerait parmi les meilleurs en PVA. Dans le même temps, une région plus petite d'une province rurale, qui a été déboisée il y a des siècles et qui comprend aujourd'hui principalement des pâturages et des terres cultivées, aurait également un rang élevé en termes de PVA. Par conséquent, et comme le FC dans cette étude est défini comme une proportion sur le PVA, on s'attend à ce que des valeurs élevées de PVA diminuent le FC. Les unités avec une APV élevée auront en général plus d'options pour établir des emplacements productifs pour les terres agricoles et elles devraient connaître un besoin accru d'exploiter pour la production alimentaire à l'intérieur des frontières de la région.

Un facteur clé de la déforestation est le rôle de la densité de population et du développement démographique [13,87,88]. Nous nous attendons à ce qu'une densité de population plus élevée entraîne une demande plus élevée de terres et de ressources avec des phénomènes connexes exerçant une pression directe sur la forêt elle-même, comme par ex. l'expansion agricole et la culture itinérante, l'établissement de colonies, de routes et d'autres infrastructures, la collecte de bois de chauffage et l'extraction de ressources. Nous avons estimé la population totale (PTOT) pour chaque unité administrative en extrayant les données démographiques associées de worldpop.org.uk [76-79]. Nous l'avons fait pour l'année la plus proche de la carte d'occupation des sols correspondante utilisée dans chaque pays (tableau 2). Nous avons calculé la densité (pression) sur la superficie forestière totale restante (PPFA) en divisant la population totale par la superficie forestière (FA).

À l'instar de la pression démographique, les indicateurs d'accessibilité, tels que la densité des routes ou la distance aux routes, ont été largement utilisés comme mesure de la pression environnementale et du développement économique [89–92]. La présence de routes peut contribuer à une série de pressions sur les forêts et sur l'environnement naturel en général [13] et, par conséquent, nous nous attendons à ce que des densités routières élevées soient susceptibles d'affecter négativement la FC. Nous avons téléchargé et calculé la longueur totale de la route (RTOT) dans chaque unité juridictionnelle évaluée (y compris les autoroutes, les routes, les chemins et les voies ferrées) de openstreetmap.org et geofabrik.de [80]. La longueur totale de la route en km (RTOT) a été divisé par la superficie totale (ATOT) de chaque unité administrative respective (en km 2 ), pour calculer la densité routière (RD).

La pente à 90 m de résolution a été calculée à partir de la version 4.1 du SRTM DEM (Shuttle Radar Topographic Mission Digital Elevation Model) produit par la NASA (National Aeronautics and Space Administration) et le CGIAR (Consultative Group for International Agricultural Research) [81]. Pour chaque unité administrative analysée, nous avons divisé la superficie totale en dessous de 16% de pente (FLTOT) par sa surface totale (ATOT), générant ainsi un indicateur de planéité : FL. Nous avons sélectionné des terres présentant une pente de 16 % sur la base de la définition de la FAO des terres pluviales non (0 à 8 %) ou légèrement (8 à 16 %) contraintes ([82]). Nous nous attendons donc à ce que les régions avec une part plus élevée de planéité soient plus adaptées au défrichement de nouvelles terres agricoles aient un FC plus faible [13]. Des différences entre pays et entre niveaux sont également attendues en fonction de chaque condition physio-géographique spécifique.

Nous avons estimé l'indice d'aptitude des cultures (CSI) à partir des données FGGD (Insécurité alimentaire, pauvreté et environnement mondial GIS) de la FAO concernant «l'adéquation des terres actuellement disponibles pour les cultures pluviales, en utilisant la maximisation du mélange de cultures et de technologies» [82,83] . Ce jeu de données est une couche raster globale affichant des valeurs comprises entre 0 (ne convient pas) et 100 (CSI très élevé). Nous avons attribué une valeur zéro (aucune aptitude à la culture) à des classes telles que les plans d'eau internes, les zones urbaines, les forêts denses, les zones protégées ou les terres irriguées. Cela concernait quelques zones spécifiques comme les Galapagos, la forêt amazonienne reculée, ou la métropole de Manille aux Philippines. Comme la résolution des pixels était plutôt grossière (1/12 de degré) - en particulier si l'on considère la taille de certaines unités du plus petit niveau juridictionnel -, nous avons calculé la moyenne pondérée par zone des valeurs de pixels situées à l'intérieur des limites pour chaque unité d'analyse. Le CSI représente le potentiel agricole de la terre et devrait donc affecter négativement la FC [13].

Enfin, le rendement superficiel céréalier (CY) exprime le rendement réellement atteint à un moment ou à une période de temps. Le CY est censé augmenter dans le temps, fluctuer à court terme et peut-être se saturer dans une phase de forte intensification. Le rendement céréalier d'une région est un indicateur de productivité et d'intensification agricoles [93,94]. Ainsi, nous nous attendons à ce qu'il relâche la pression sur FC. Nous avons sélectionné deux principales catégories de céréales, qui représentent les principaux types de cultures dans les trois pays sélectionnés, à savoir le maïs et le riz. Nous avons obtenu des données sur les rendements de production agrégés des classes de maïs et de riz (MY, RY en tonnes/ha) à partir de sources nationales officielles entre 1987 et 2015 [84-86], pour cinq des douze échantillons analysés. Pour les deux types de céréales, nous avons considéré la moyenne arithmétique des 10 dernières années avant la production de chaque couvert végétal particulier. Nous avons converti les moyennes calculées en rendements caloriques (kcal/ha), en utilisant les facteurs de conversion généraux présentés par Cassidy et al. (2013) [95]. Pour les unités administratives disposant d'informations à la fois pour le maïs et le riz, le rendement calorique le plus élevé a été pris en considération, en supposant que ce type de culture est plus susceptible de se produire dans la région respective.

2.4 Modélisation économétrique spatiale

Nous avons réalisé l'analyse économétrique spatiale avec le support des logiciels statistiques JMP ® 13.1.0 et R 3.5.2 [96,97] et le spdep [98,99], rgdal [100], sp [101], géos [102] et RANN [103] paquets. Le produit final et les fichiers utilisés pour l'analyse (Fichier S1), ainsi que le script R associé (Fichier S2), se trouvent dans les pièces jointes en ligne de cet article. Nous avons défini un total de douze échantillons : neuf échantillons présentent les combinaisons des trois pays et des trois niveaux spatiaux d'analyse, et trois échantillons présentent les données agrégées (pantropicales) de tous les pays aux trois niveaux spatiaux.

Nous avons supposé une relation sigmoïde entre les moteurs de la déforestation et la variable dépendante, suivant les résultats d'autres auteurs [26,88,104,105]. Cette relation constitue un modèle de déclin FC avec une fonction de croissance inversée approchant 1 comme asymptote horizontale sur le côté gauche et 0 sur le côté droit (semblable au graphique comme le montre la figure S1). Par la suite, la variable dépendante a dû être linéarisée par transformation logistique afin de permettre les techniques de régression linéaire et les variables explicatives ont été transformées à l'aide d'une fonction logarithme : (Eq 1) (Eq 2) où : * fait référence à linéarisé ou transformé s est l'échantillon et X est un vecteur des sept variables explicatives v.

Les échantillons avec des valeurs extrêmes ou nulles manquantes, non linéarisables – dans le cas de FC, PVA, CSI ou RD – ont été rejetés. Il s'agissait généralement de micro-unités ou de méso-unités de (a) métropoles sans FC enregistrées (principalement quelques grands centres urbains à Copperbelt et Lusaka en Zambie, des villes très peuplées aux Philippines et un petit nombre d'établissements appartenant à la zone aride Andes, Quito ou Guayaquil en Equateur), ou (b) des zones reculées avec une présence humaine quasi inexistante (comme les Galapagos en Equateur ou les îles de la Tortue aux Philippines). Cela impliquait l'exclusion d'un total de 3,92 % des macro-unités, 3,99 % des méso-unités et 24,67 % des micro-unités de l'échantillon original.

Pour chacun des douze échantillons, les variables explicatives fournies ont été standardisées individuellement comme suit, afin de comparer ou d'estimer ultérieurement leur contribution relative au modèle : (Eq 3) où : X ^ v,s est la variable explicative standardisée v comme échantillon s (X * v,s) représente la valeur moyenne dans l'échantillon s pour la variable explicative transformée v et (X * v,s) est l'écart type de la variable explicative transformée v en échantillon s.

Dans une étape suivante, nous avons testé la colinéarité entre les sept variables explicatives pour chaque échantillon. Les variables avec des valeurs de corrélation bivariée d'au moins 0,6 ont été considérées comme des prédicteurs hautement corrélés. Nous avons effectué des régressions linéaires simples pour chacune des variables indépendantes. Les variables fortement corrélées avec les coefficients de détermination les plus faibles dans leurs régressions linéaires respectives n'ont pas été incluses dans les calculs ultérieurs, en supposant qu'elles fournissaient des informations redondantes. Ensuite, nous avons identifié les variables explicatives significatives par échantillon, en utilisant le modèle OLS non spatial suivant une méthode d'élimination automatique par étapes vers l'arrière avec le plus petit critère d'information bayésien comme règle d'arrêt. Par conséquent, le modèle OLS pour l'analyse multivariée s'exprime comme : (Eq 4) où β sont les coefficients respectifs et ε est le résidu.

Ensuite, nous avons développé une matrice de poids spatiaux (W) pour chacun des douze échantillons. Afin d'éviter les déficiences du modèle et les erreurs d'application de l'économétrie spatiale [106–108], cette matrice doit refléter la manière dont les unités spatiales interagissent les unes avec les autres et leur degré de connectivité. Nous avons considéré une matrice de voisins basée sur un graphique (sphère d'influence (SOI)) pour les douze échantillons de notre étude (Fig. 2). Une matrice SOI fonctionne « sur la base des distances euclidiennes entre les centroïdes des polygones, où les points sont voisins si des cercles centrés sur les points, de rayon égal aux distances des plus proches voisins des points, se coupent en deux endroits » [98,109].

a) Zambie b) Équateur et c) Philippines.

Nous avons examiné les résultats de chaque analyse OLS [98] pour vérifier la dépendance spatiale des résidus du modèle, en effectuant à la fois le test de Moran [110] et pour explorer les relations spatiales avec le diagnostic du multiplicateur de Lagrange pour les modèles de décalage et d'erreur [33,111,112]. Nous l'avons fait afin de révéler des autocorrélations spatiales et de justifier l'utilisation des modèles économétriques proposés. Ainsi, avec cela, nous ne voulions pas explorer ou discuter les distributions spatiales des erreurs/variables explicitement pour chaque contexte ou échelle, mais nous voulions plutôt démontrer l'existence de dépendances spatiales entre les différents échantillons (contextes/échelles différents) et justifier l'utilisation de nos modèles économétriques spatiaux.

Ensuite, pour sélectionner le modèle de régression le plus approprié pour chaque échantillon, nous avons appliqué la méthode de LeSage et Pace [32,36] pour la spécification du modèle local. Ainsi, nous avons effectué des tests de rapport de vraisemblance (LHR) pour sélectionner le modèle spatial qui expliquait le mieux chacun des douze échantillons. Cette méthode essaie de démontrer si un modèle d'erreur spatiale de Durbin (SDEM) peut être restreint à un modèle imbriqué plus simple, tel qu'un modèle d'erreur spatiale (SEM), un modèle X spatialement décalé (SLX) ou réduit au non spatial Modèle OLS :

Modèle d'erreur spatiale de Durbin (SDEM) : (Eq 5) si θ = 0, (6) résulte en un modèle d'erreur spatiale (SEM) : (Eq 6) si λ = 0, (6) donne un modèle X spatialement retardé (SLX) : (Eq 7) si les deux θ = 0 et λ = 0, (6) donne le modèle OLS : (Eq 8) où : Ws,m représente le poids standardisé par ligne du voisin m pour un certain échantillon sv,s sont les impacts des voisins sur une certaine variable v et échantillon s en X ^ v,s,m représente les valeurs des voisins pour une certaine variable et échantillon Ws,mvouss représente l'erreur résiduelle spatiale pondérée.

Ainsi, nous avons affecté chaque échantillon à un modèle de régression optimal, qui pourrait prendre en compte soit les impacts voisins (modèle SLX), les erreurs spatialement corrélées (modèle SEM), les deux effets spatiaux (modèle SDEM) ou aucun d'entre eux (modèle OLS). La figure 3 résume le cadre analytique de cet article de recherche sous la forme d'un schéma conceptuel. Ce graphique résume également comment les interactions spatiales et les différents modèles proposés se réfèrent les uns aux autres dans la méthode de spécification.

Enfin, afin de justifier la méthode de spécification, nous avons quantifié et comparé différents indicateurs de performance ou mesures globales à la fois pour l'OLS et les modèles spatiaux spécifiés. Dans un premier temps, nous avons considéré les critères d'information (1) d'Akaike et (2) bayésiens (AIC, BIC). Ce sont tous deux des estimateurs de la qualité relative des modèles statistiques, où des valeurs plus faibles indiquent une meilleure qualité d'ajustement. Nous avons également calculé (3) des estimateurs sans biais du maximum de vraisemblance de la variance d'erreur et (4) des erreurs types de régression. Ces deux autres mesures estiment la qualité de l'ajustement en pourcentage, et elles ont tendance à diminuer (se rapprocher de zéro) si la qualité de la régression augmente. Enfin, nous avons calculé (5) des coefficients de détermination ajustés (qui indiquent le pourcentage de la variance de la variable dépendante expliquée par le modèle) et (6) des log-vraisemblances avec des estimateurs du maximum de vraisemblance pour les coefficients de régression. Ces deux derniers paramètres augmentent avec l'amélioration de la qualité du modèle. Toutes ces mesures ont été calculées selon les formules et définitions proposées par [113].


Bonus : sérialisation des données de trajectoire

En plus de Mobilitydb-sqlalchemy, j'ai récemment publié des bibliothèques de sérialisation/compression de données de trajectoire basées sur l'algorithme de format polyligne codé de Google, pour python et javascript appelés respectivement trajectoire et trajectoire.js. Ces bibliothèques vous permettent d'envoyer des données de trajectoire dans un format compressé, ce qui entraîne des charges utiles plus petites si vous envoyez vos données via des formats de sérialisation lisibles par l'homme comme JSON. Dans certaines des API internes que nous utilisons chez Adonmo, nous avons vu cela réduire nos tailles de réponse de plus de la moitié (>50%) parfois jusqu'à 90%.

Vous voulez en savoir plus sur Mobilitydb-sqlalchemy ? Consultez la documentation de démarrage rapide et d'amp.


4. DISCUSSION

En utilisant une combinaison de surveillance à long terme et de télédétection de l'habitat des herbiers marins, de la télémétrie des herbivores et des expériences de mise en cage sur le terrain, nous avons trouvé des preuves solides que le pâturage des feuilles des tortues vertes peut augmenter le taux et l'étendue spatiale des herbiers marins envahissants. H. stipulacea expansion dans les Caraïbes. Les effets indirects du pâturage sur les invasions d'espèces (c. Ces travaux antérieurs se sont principalement concentrés sur les petits mésograzers. Ainsi, notre travail suggère que les grands herbivores peuvent également déclencher l'expansion d'espèces envahissantes en supprimant les espèces indigènes qui peuvent être plus appétissantes mais inférieures sur le plan compétitif. Les grands herbivores jouent un rôle important mais encore largement méconnu dans les invasions des écosystèmes aquatiques, cependant, une prise en compte adéquate de leurs impacts devient de plus en plus importante (Bakker et al., 2015), en particulier avec le changement global anticipé des invasions d'espèces et des grandes populations de brouteurs ( ex., déclassement trophique, Estes et al., 2011 défaunation marine, McCauley et a., 2015 ). Nos résultats fournissent des informations importantes sur le degré de coexistence des espèces d'herbiers marins indigènes avec des herbiers marins envahissants et montrent que les grands herbivores peuvent jouer un rôle important dans l'expansion des espèces envahissantes.

Avant cette étude, l'expansion des herbiers marins envahissants était liée à de nombreux facteurs, mais pas au pâturage. Les taux d'expansion ont été signalés comme étant élevés en raison d'une productivité élevée (Smulders et al., 2017) et se produisant préférentiellement dans des sites plus abrités (Steiner et Willette, 2015) et eutrophiés (van Tussenbroek et al., 2016). De nombreux autres facteurs peuvent être impliqués, y compris la viabilité élevée des fragments (>2 semaines Smulders et al., 2017), une distance potentielle élevée de dispersion des graines à travers les mégaherbivores (<650 km comme trouvé avec Halophile spp. graines en Australie Tol et al., 2017 ), et l'impact des perturbations sur la densité des fragments (broutage des racines des fragments Smulders et al., 2017 ). Cependant, jusqu'à présent, la dispersion des graines peut ne pas être significative car seules des plantes stériles (Willette et al., 2014) ou mâles (Vera, Collado-Vides, Moreno et Tussenbroek, 2014) ont été trouvées dans les Caraïbes. L'expansion rapide de H. stipulacea n'est pas un phénomène local (Willette et al., 2014 ). Par conséquent, une évaluation combinée des multiples mécanismes et de la paramétrisation de ces facteurs est nécessaire pour modéliser l'expansion future de cette espèce dans les Caraïbes.

Un résultat frappant a été que depuis 2010, l'année de l'introduction des herbiers marins non indigènes H. stipulacea, la bordure nette des herbiers indigènes pâturés et non pâturés s'est déplacée vers des zones moins profondes.Ces zones contenaient des espèces d'herbes marines indigènes qui n'avaient pas été pâturées auparavant, couvrant une superficie de 65 hectares. La frontière de pâturage était auparavant restée à un emplacement stable sur la base d'images satellitaires remontant à 1970, également pendant l'augmentation de la population de tortues au cours des dernières décennies. Lorsque l'approvisionnement en nourriture (herbes marines indigènes) était encore élevé dans d'autres zones de la baie, les tortues ne préféraient pas paître dans les faibles profondeurs de ces prairies, probablement parce que les tortues vertes éprouvent des difficultés à atteindre une flottabilité neutre dans les faibles profondeurs (Hays, Metcalfe et Walne , 2004 ). Face à une compétition intraspécifique accrue pour les ressources sur notre site d'étude, et à la lumière de leur forte préférence pour les herbiers marins indigènes en déclin, nous émettons l'hypothèse que les tortues marines se sont déplacées pour brouter au-delà de cette frontière et ont étendu leurs zones d'alimentation dans les régions peu profondes de la baie, conduisant à espace accru pour l'établissement et la propagation des espèces d'herbes marines introduites.

Les effets interactifs entre les mégaherbivores et les herbiers marins envahissants peuvent avoir un impact sur la coexistence et la compétition des espèces d'herbiers marins. Les tortues vertes sont décrites comme ayant une préférence alimentaire pour les espèces d'herbes marines ayant la plus grande appétence et la plus forte teneur en éléments nutritifs (Bjorndal, 1997 ) qui sont des caractéristiques attribuées aux espèces à croissance rapide (telles que H. wrightii) sur les espèces à croissance plus lente (comme T. testudinum Christianen, 2013). L'invasif H. stipulacea semble être une exception à cette règle. Bien qu'il s'agisse d'une espèce à croissance rapide, la teneur relative en azote de H. stipulacea (un indicateur de l'appétence ou de la valeur nutritionnelle) et la teneur en sucre est presque deux fois plus faible que celle observée chez les espèces indigènes à croissance plus lente. Avec les préférences de pâturage signalées, la faible teneur en azote des feuilles peut aider à expliquer pourquoi les tortues vertes semblent limiter les espèces envahissantes. H. stipulacea comme source de nourriture jusqu'à présent. Nos résultats suivent « l'hypothèse de la libération de l'ennemi » (ERH), où « les espèces envahissantes peuvent devenir beaucoup plus dominantes lorsqu'elles s'échappent des brouteurs mal adaptés pour manger des espèces non indigènes » (Keane & Crawley, 2002). Ainsi, la préférence de pâturage des tortues pour des espèces indigènes plus hautement nutritives peut faciliter l'expansion des herbiers marins envahissants.

Bien que les préférences alimentaires des herbivores soient informatives, ces préférences peuvent changer avec le temps (Trowbridge, 1995), induites à la fois par les plantes et les brouteurs. Les plantes peuvent réagir à temps en attribuant plus de moyens de dissuasion chimiques (Wikstrom, Steinarsdottir, Kautsky et Pavia, 2006 ). Étant donné que peu d'agents de dissuasion chimiques ont été observés dans les herbiers marins (Olsen et al., 2016 ), leur impact sur l'évolution des préférences devrait être limité. Les préférences alimentaires et le comportement de recherche de nourriture des tortues pourraient également changer à l'avenir puisque de grands changements dans la couverture d'herbes marines des espèces indigènes (−20 % de couverture en 6 ans) et envahissantes (+14% de couverture) ont été observés sur notre site d'étude à Bonaire. Cela peut entraîner une baisse des taux de rencontre entre plantes et herbivores (Parker et Hay, 2005), forçant éventuellement les tortues à se tourner vers des sources de nourriture non indigènes ou à migrer vers d'autres zones d'alimentation.

Bien que H. stipulacea était déjà souvent considérée comme envahissante, nous fournissons une première preuve du remplacement d'espèces d'herbes marines indigènes par une espèce d'herbes marines envahissante, y compris une explication mécaniste de cette invasion. Ensemble, nos résultats soutiennent la labellisation H. stipulacea comme espèce envahissante dans la région des Caraïbes. Contrairement aux rapports précédents qui n'ont trouvé que des tapis denses d'herbes marines envahissantes à des concentrations élevées de nutriments environnementaux (van Tussenbroek et al., 2016), nous avons également trouvé H. stipulacea tapis dans les zones non eutrophisées. Avec nos résultats sur les impacts sur les tortues, cela met en évidence que le « caractère envahissant » de cette espèce n'est pas uniquement dû aux conditions environnementales abiotiques (par exemple, van Tussenbroek et al., 2016 ). Nos expériences et observations ont clairement montré que l'herbe marine envahissante est compétitivement inférieure à l'herbe indigène à cet endroit, comme le montre l'expansion limitée dans les parcelles non pâturées, et nécessite du pâturage ou d'autres perturbations pour s'établir et se propager. Les données de la série chronologique indiquent également que l'envahisseur progresse dans l'espace et le temps de concert avec le pâturage (figures 1b et 5). Cependant, dans des conditions non perturbées et à des échelles de temps plus longues, il est moins clair si H. stipulacea peut activement repousser les espèces d'herbes marines indigènes. Jusqu'à présent, envahissant à racines peu profondes H. stipulacea n'a été signalé que pour déplacer rapidement les racines peu profondes S. filiforme et H. decipiens dans les Caraïbes (Steiner & Willette, 2015 Willette & Ambrose, 2009, 2012 Willette et al., 2014 ). Ici, nous rapportons que les tapis d'herbes marines envahissantes remplacent les racines plus profondes T. testudinum. Cela peut potentiellement compromettre les services écosystémiques de la prairie sous-marine. Par exemple, une diminution de la biomasse racinaire peut entraîner une diminution de la séquestration du carbone (Marba et al., 2015 ), et une diminution de la stabilisation du fond marin pendant les tempêtes et donc une diminution de la protection côtière (Christianen et al., 2013 Vonk, Christianen, Stapel, & O'Brien, 2015 ).

L'invasion de ces herbiers non indigènes peut non seulement avoir des conséquences importantes sur la capacité de charge des herbiers marins pour les populations de tortues vertes, mais aussi sur la santé et les taux de croissance des tortues vertes. Dans le cadre de l'expansion continue des herbiers marins envahissants et du remplacement des herbiers marins indigènes plus nutritifs par des herbiers marins envahissants, les tortues peuvent avoir besoin d'une plus grande zone d'alimentation de cette source de nourriture de qualité inférieure pour répondre à leurs besoins nutritionnels quotidiens. Cela ne vaut que si la zone d'habitat d'alimentation des herbiers marins est limitée et que d'autres aires d'alimentation sont difficiles à trouver. Les herbiers marins disparaissent rapidement (Waycott et al., 2009 ), en particulier dans les zones côtières fortement développées des Caraïbes (van Tussenbroek et al., 2016 ). Si les tortues sont incapables de s'adapter à la nouvelle composition des espèces en ajustant leur stratégie d'alimentation, cela pourrait finalement entraîner une diminution globale des taux de croissance des tortues (Bjorndal et al., 2017) et de la santé dans la région des Caraïbes. Notre recherche met en évidence la nécessité de considérer un habitat d'alimentation et de reproduction adéquat et approprié lorsque l'on essaie de conserver ou de protéger les tortues marines.


Discussion

Les méthodes d'échantillonnage de population maillée en sont à leurs balbutiements. Plusieurs approches de sélection d'échantillons de première étape et de travail sur le terrain ont été essayées. Ces approches sont prometteuses mais ont des limites et nécessitent des recherches supplémentaires. Le Exemple de grille L'algorithme R fournit un outil pour développer et évaluer les nouvelles méthodes d'échantillonnage de population maillée.

Problème d'unité de surface modifiable

L'échantillonnage de population maillée est sensible au problème des unités de surface modifiables (MAUP). Une MAUP apparaît lorsqu'une unité spatiale arbitraire, telle qu'une cellule de grille, est utilisée pour résumer des caractéristiques de population continues conduisant à des modèles spatiaux apparemment différents de cette caractéristique dans la population simplement en changeant la taille (échelle) ou la zone (groupement) de l'espace unités [60]. Dans l'échantillonnage de population maillée, la taille et la zone des cellules de la grille sont susceptibles d'influencer les probabilités d'inclusion dans l'échantillonnage, en particulier lorsque l'échantillon de premier degré est basé sur des cellules de grille géographiquement grandes et/ou que la population est répartie de manière hétérogène.

Quatre approches générales de l'échantillonnage de premier degré avec des données de population maillées sont décrites dans la figure 5. Premièrement, l'approche de segmentation consiste à échantillonner des UPE géographiquement grandes avec une probabilité proportionnelle à la taille de la population estimée, puis à segmenter par des cellules de grille plus petites [10] ou à délimiter manuellement des cellules plus petites. zones en utilisant l'imagerie satellitaire [6,7,8,9,10]. Exemple de grille peut être utilisé pour sélectionner de grandes cellules en agrégeant l'ensemble de données de population maillée en entrée. Au Myanmar, Muñoz et Langeraar (2013) ont agrégé les estimations de population maillées LandScan de 1 km × 1 km en cellules « super » de 3 km × 3 km pour la sélection de l'échantillon de première étape. Ensuite, ils ont regroupé des cellules de grille de 1 km × 1 km dans les UPE sélectionnées pour atteindre un seuil de population minimum, puis ont échantillonné au hasard un groupe de cellules en tant qu'unité d'échantillonnage secondaire (SSU) dans chaque UPE. Enfin, ils ont segmenté manuellement les SSU en douzaines de zones avec une population à peu près égale sur la base d'images satellite, et ont échantillonné un segment [10]. Par conséquent, les poids de l'échantillon étaient faciles à calculer sur le plan informatique, car ils suivaient une approche d'échantillonnage à plusieurs degrés typique. De plus, les unités d'échantillonnage finales avaient des limites sensibles liées aux caractéristiques du monde réel, ce qui rendait possible le travail sur le terrain. Cependant, les probabilités d'inclusion dans l'échantillon des UPE et des SSU étaient sensibles à la taille et à la zone des cellules de la grille, qui pourraient avoir lissé ou accentué la densité de population selon la distribution de la population sous-jacente.

Approches d'échantillonnage probabiliste avec des données de population maillées

Une approche ponctuelle a été utilisée par Thomson et ses collègues (2012) en utilisant des données de population maillées LandScan de 1 km × 1 km dans l'est de la R.D. du Congo. Pour cette enquête, l'équipe a généré des points situés au hasard dans les cellules de la grille où le nombre de points était proportionnel à la population estimée. Ensuite, ils ont échantillonné au hasard des points au sein des strates. Enfin, ils ont délimité manuellement les unités d'échantillonnage autour des logements les plus proches de chaque point à l'aide d'images satellites, garantissant que les limites des UPE étaient situées dans les limites des cellules [6]. Les poids de l'échantillon ont été adaptés pour suivre une approche d'échantillonnage à plusieurs degrés typique, les limites finales des unités d'échantillonnage étaient raisonnables, ce qui rendait possible le travail sur le terrain, et l'utilisation de points a empêché tout effet de la MAUP. Cependant, la délimitation manuelle d'une unité d'échantillonnage autour de chaque point était sujette à des biais humains.

La troisième approche de l'échantillonnage de la population maillée est l'approche de la croissance, uniquement disponible dans le Exemple de grille outil. Elsey et al. [7] à Katmandou, Népal a utilisé une première version de Exemple de grille pour sélectionner des cellules souches à partir de l'ensemble de données de population maillée de 100 m × 100 m de WorldPop, et faire croître les UPE à une taille de population minimale. La croissance des UPE est probablement moins sensible aux MAUP de zone et d'échelle que la segmentation de grandes cellules car, dans l'approche de croissance, l'échelle des cellules de la grille de départ est plus proche en termes de taille géographique et de population de l'unité d'échantillonnage finale. Cependant, le calcul correct des poids de probabilité d'inclusion dans l'échantillonnage pour l'approche de croissance n'est pas clair. Les poids probabilistes de l'échantillon devraient-ils être calculés à partir des densités des cellules de la grille ou des densités des unités d'échantillonnage finales ? Des arguments peuvent être avancés pour les deux approches. Avant de discuter de deux calculs potentiels de poids d'échantillon pour l'approche de croissance, nous décrivons une quatrième approche hypothétique, mais réalisable, d'échantillonnage de population maillée.

La base de sondage de population maillée la plus idéale regrouperait peut-être les cellules de la grille en UPE potentielles « sensibles » de taille de population similaire avant le premier échantillonnage. Les limites raisonnables des UPE seraient définies en termes de caractéristiques géographiques telles que les routes, les rivières, les crêtes ou les vallées qui pourraient être facilement reconnues et parcourues sur le terrain. Les UPE raisonnables regrouperaient également des types de populations similaires, par exemple, par niveau de pauvreté moyen des cellules de la grille. La génération d'une base de sondage de population maillée sensible n'est devenue possible que récemment, car de nouvelles techniques sont développées pour estimer les caractéristiques de la population, telles que le niveau de pauvreté ou l'état de la maladie, dans un format de population maillée [54, 61]. L'utilisation de méthodes quadtree pour diviser des carrés de grille de population dense en quatre cellules plus petites peut être considérée comme une première étape rudimentaire vers le développement de PSU potentielles sensibles [62]. S'il existait une base de sondage de population maillée d'UPE potentielles sensibles, le praticien de l'enquête échantillonnerait les unités avec une probabilité proportionnelle à la taille estimée et calculerait les poids de probabilité d'inclusion d'échantillonnage typiques.

L'approche de croissance de l'échantillonnage de la population maillée peut être conceptualisée comme une instance d'une base de sondage sensible dans laquelle seules les limites des UPE échantillonnées sont connues et les limites des UPE potentielles non échantillonnées existent mais ne sont pas dessinées. Les poids d'échantillon calculés à partir des densités de population finales des UPE sont simples à calculer et sont fournis ci-dessous.

Si, cependant, les probabilités d'inclusion de l'approche de croissance doivent être calculées à partir des densités de population des cellules de la grille (plutôt que des PSU finales), alors un poids d'échantillon adaptatif complexe doit être formulé [63]. Un poids d'échantillon adaptatif tiendrait compte de la population estimée d'une cellule donnée, ainsi que de la probabilité de devenir une UPE via une cellule voisine. La probabilité de devenir une UPE dépendrait (a) des populations estimées des cellules voisines, (b) du paramètre de la taille géographique maximale de l'UPE, (c) du paramètre de la taille de la population minimale de l'UPE, et éventuellement (d) de l'emplacement des limites des strates, et (e) l'emplacement des limites des polygones de voronoi entre les cellules germes dans une multitude d'exemples. La nécessité d'une formulation aussi complexe doit être évaluée, mais dépasse le cadre de cet article.

Poids de l'échantillon

Ci-dessous, nous fournissons des exemples de calculs de poids pour l'approche de croissance de la sélection des UPE, qui est uniquement disponible dans Exemple de grille. Ces poids reflètent les probabilités d'inclusion dans les UPE finales, et non dans les cellules individuelles de la grille. Les poids d'échantillon pour les approches de segmentation, de point et d'UPE sensible ont été décrits ailleurs et sont résumés dans le fichier supplémentaire 1. Ces formulations de poids d'échantillon sont parallèles aux méthodes d'enquête typiques, reflétant la probabilité qu'un ménage soit (1) sélectionné, (2) trouvé, et (3) ont répondu [13,14,15,16]. Tandis que le Exemple de grille Le fichier de formes de sortie comprend les valeurs nécessaires pour calculer les probabilités de sélection des UPE, le responsable de la mise en œuvre de l'enquête doit suivre le nombre de ménages recensés sur le terrain dans chaque UPE et les taux de réponse des ménages pour calculer correctement les poids de l'échantillon. Les formules suivantes utilisent quatre indices : 1…k strates, 1…je PSU, 1…j ménages, et 1…q personnes. Le poids de sélection des ménages (de base) pour l'approche de la croissance de la formation des UPE—la probabilité que les UPE je est sélectionné, puis ménage j est sélectionné — est donné par :

où (n_) est le nombre d'UPS sélectionnées dans la strate k, (G_) est la population totale estimée dans la strate k, (g_) est la population estimée en UPE je en strate k, (m_) est le nombre de ménages échantillonnés dans l'UPE je et strate k pendant le travail sur le terrain, et (M_) est le nombre total de ménages recensés dans l'UPE je et strate k pendant le travail sur le terrain.

Si les UPE de croissance sont divisées manuellement et échantillonnées davantage, les poids sont calculés de la même manière, sauf que la probabilité d'être dans l'unité d'échantillonnage finale (w_) comprend (b_) , la proportion de ménages situés dans le segment dessiné manuellement, approximée en comptant les bâtiments en imagerie satellitaire :

Le poids de réponse du ménage — la probabilité que l'UPE je est trouvé et échantillonné, et le ménage j est trouvé et répondu — est donné par :

où (n_) nombre d'UPS sélectionnées dans la strate k, (n_ *) est le nombre d'UPE trouvées et échantillonnées dans la strate k, (m_) est le nombre de ménages sélectionnés dans l'UPE je et strate k, et M_ *) est le nombre de ménages trouvés et répondus dans l'UPE je et strate k. Le poids de la réponse individuelle—la probabilité que l'UPE je est trouvé et échantillonné, puis le ménage j est trouvé et répond, et finalement cet individu q est présent et répond — est donné par :

où (n_) est le nombre d'UPS sélectionnées dans la strate k, (n_ *) est le nombre d'UPE trouvées et échantillonnées dans la strate k, (m_) est le nombre de ménages sélectionnés dans l'UPE je et strate k, (m_ *) est le nombre de ménages trouvés et répondus dans l'UPE je et strate k, et toi_) est le nombre de personnes éligibles dans le ménage j en bloc d'alimentation je et strate k, et toi_ *) est le nombre d'individus ayant répondu dans le ménage j en bloc d'alimentation je et strate k. Le poids de l'échantillon du ménage (w_) comprend le poids de sélection du ménage et le poids de réponse du ménage :

En supposant que toutes les personnes éligibles (par exemple, toutes les femmes âgées de 15 à 49 ans) seront interrogées dans les ménages sélectionnés, le poids de l'échantillon individuel (w_) comprend le poids de sélection du ménage et le poids de réponse individuelle :

Travail de terrain

Quatre approches sont disponibles pour le travail d'enquête sur le terrain avec Exemple de grille production. Ces quatre approches sont visualisées sur la figure 6 et décrites ci-dessous.

Schéma de quatre options de mise en œuvre sur le terrain pour l'échantillonnage de la population maillée

PSU maillées

Cette option utilise des limites de PSU quadrillées qui ont des coins carrés et aucune relation avec des caractéristiques géographiques ou administratives dans le monde réel. Cette approche a été utilisée dans une enquête en grappes en deux étapes auprès des ménages à Katmandou, au Népal [7]. L'équipe a utilisé OpenStreetMap™, une carte en ligne des routes, des emplacements des bâtiments et d'autres fonctionnalités, via une application Android sur les téléphones mobiles, pour cartographier numériquement les ménages au sein des blocs d'alimentation. L'énumération OpenStreetMap™ a été choisie par rapport au mappage type stylo et papier, en partie parce que la moitié de leurs PSU étaient déjà mappées dans OpenStreetMap™. Les ménages (définis comme un groupe de personnes partageant une marmite) ont été entièrement dénombrés en frappant aux portes et en discutant avec les voisins pour s'assurer que les ménages à faible revenu qui partageaient un appartement n'étaient pas sous-échantillonnés. L'équipe a rencontré des différences, parfois substantielles, dans le nombre de ménages par UPE par rapport à ce qui était attendu de la base de sondage WorldPop. L'équipe a cité la précision géographique des cartes de terrain, la faisabilité de la cartographie dans des environnements urbains denses et complexes, l'exploitation des données existantes et la capacité de contribuer à une ressource participative comme raisons d'utiliser cette approche [7].

Nous soutenons l'utilisation de l'énumération OpenStreetMap™, en particulier pour les environnements urbains où les données OpenStreetMap™ sont susceptibles d'exister. Cependant, nous recommandons fortement aux responsables de la mise en œuvre d'utiliser une méthode pour anonymiser les bâtiments ajoutés à la carte de source participative de telle sorte que les UPE interrogées ne puissent pas être identifiées. Dans les zones où les bâtiments ont déjà été cartographiés dans OpenStreetMap™, des modifications mineures ne révéleront pas les emplacements des PSU. Cependant, dans les zones de la carte sans emplacements de bâtiments et de routes, les responsables de la mise en œuvre devraient envisager de cartographier au-delà des limites des limites des UPE afin que les formes quadrillées des UPE ne suggèrent pas une enquête auprès des ménages quadrillée. De plus, si les données OpenStreetMap™ sont rares dans la région de l'enquête, les responsables de la mise en œuvre devraient envisager d'énumérer un certain nombre de fausses PSU afin de préserver l'anonymat des communautés interrogées. Les directives spécifiques pour l'énumération OpenStreetMap™ ne sont pas encore disponibles.

PSU dessinés manuellement

Une deuxième approche pour mettre en œuvre des échantillons de population quadrillés consiste à dessiner manuellement des UPE autour de points aléatoires dans les cellules souches, ou à segmenter manuellement des unités d'échantillonnage quadrillées à l'aide d'images satellite détaillées. Des UPE dessinées manuellement ont été utilisées dans une enquête en grappes à une étape dans l'est de la R.D. du Congo [6] et une enquête en grappes à deux étapes au Myanmar [10]. Un avantage clé de cette approche est que les UPE suivent des limites sensibles telles que les rivières et les routes, qui sont facilement identifiables à la fois sur les images satellite et sur le terrain. Parce que les PSU dessinées manuellement sont facilement identifiables, les équipes de terrain sont flexibles pour utiliser des cartes papier et crayon dessinées à la main, des cartes imprimées d'images satellite ou des fonctionnalités OpenStreetMap™, ou des cartes numériques pour la navigation sur le terrain et le dénombrement des ménages.

Échantillons non probabilistes

Les méthodes d'échantillonnage par marche aléatoire et « spin-the-pen » aboutissent à des échantillons non probabilistes de la population et ne sont donc pas recommandées par les enquêteurs [64,65,66]. Néanmoins, ces méthodes et des méthodes similaires sont souvent utilisées dans les évaluations de terrain rapides ou à haute sécurité, car elles sont moins chères et plus rapides à mettre en œuvre que les échantillons de grappes à deux étapes typiques. Des méthodes d'échantillonnage par grille de marche aléatoire et de spin-the-pen ont été utilisées dans des évaluations rapides en Irak [8] et au Myanmar [11]. Dans les deux études, les ensembles de données de population maillées étaient considérés comme des bases de sondage plus précises que les autres données de population disponibles. Étant donné que les méthodes de marche aléatoire et de spin-the-pen ne conduisent pas à des échantillons probabilistes, nous ne fournissons pas de poids probabilistes d'échantillon.

Échantillon aléatoire simple de ménages

Les chercheurs effectuent parfois de simples échantillons aléatoires de ménages dans de petites zones d'étude, par exemple un camp de réfugiés ou une seule ville, en numérisant les emplacements des points d'habitation sur une image satellite et les points d'échantillonnage au hasard [67,68,69,70,71]. Bien qu'un échantillon aléatoire simple de ménages n'ait pas été réalisé à l'aide d'un échantillonnage de population maillée, il serait simple à mettre en œuvre. Les cellules de la grille seraient échantillonnées avec une probabilité proportionnelle à la taille estimée, et l'algorithme de croissance pourrait éventuellement être désactivé pour générer des UPE à cellule unique. Ensuite, un seul logement serait choisi au hasard dans des cellules sélectionnées, soit à partir de la cartographie de tous les logements, soit en utilisant une méthode comme celle décrite par Galway et ses collègues en Irak [8]. Dans l'étude sur l'Irak, l'équipe a superposé un mini-réseau de 10 m x 10 m sur des images satellite Google Earth™ à l'intérieur de la cellule d'ensemencement, puis a sélectionné au hasard une unité de mini-réseau. Si l'unité de mini-réseau de 10 m couvrait un bâtiment, le bâtiment était sélectionné pour l'échantillonnage, sinon le processus était répété jusqu'à ce que le premier bâtiment soit identifié au hasard dans l'imagerie. Si le bâtiment sélectionné au hasard avait plusieurs ménages ou était non résidentiel, un ménage voisin pourrait être sélectionné au hasard comme décrit par Siri et ses collègues au Kenya [66]. Un échantillon aléatoire simple de ménages ne nécessiterait pas de poids d'échantillon.

Limites

Les données de population maillées sont de plus en plus utilisées comme base de sondage alternative dans les pays où les données de recensement sont obsolètes ou inexactes. Des bases de sondage de population maillées peuvent également être utilisées à la place des données de recensement pour les enquêtes qui doivent être représentatives à la fois de la population et de l'espace, et où des UPE d'une taille de population spécifique sont nécessaires. Ensuite, nous discutons de six domaines dans lesquels des recherches sont en cours, ou nécessaires, pour remédier aux limites de l'échantillonnage de la population maillée.

Exactitude de la base de sondage de la population maillée

La première préoccupation majeure dans l'échantillonnage de population maillée est l'exactitude des données de population maillées sous-jacentes. L'échantillonnage de population maillée a été essayé par un certain nombre de personnes chargées de la mise en œuvre d'enquêtes dans des circonstances de données de recensement obsolètes ou inexactes, mais la précision des ensembles de données de population maillées est variée et souvent non quantifiée. L'exactitude des données de population maillées de haut en bas accessibles au public dépend de plusieurs éléments du modèle : (1) l'exactitude des données de recensement d'entrée, (2) l'échelle géographique des données de recensement d'entrée (par exemple, au niveau du secteur de recensement par rapport au niveau du district), (3) l'âge, la précision et le type de données de covariables du modèle, et (4) l'algorithme du modèle lui-même. L'échelle géographique de la grille de sortie est également importante pour la mesure de la précision des estimations des cellules de la grille dans un ensemble de données de population maillée de 1 km × 1 km sera presque toujours plus précise que les cellules de la grille dans un ensemble de données de population maillée de 100 m × 100 m. Les erreurs de modèle sont difficiles à estimer, et même à conceptualiser, pour les ensembles de données de population maillées qui reposent sur des approches de désagrégation simples, car il s'agit essentiellement de représentations maillées des données de recensement d'entrée [24]. Alors que les erreurs de prédiction peuvent être calculées pour des ensembles de données de population maillées dérivés de techniques de modélisation complexes, WorldPop est le seul ensemble de données à inclure des erreurs [voir, par exemple, 56]. Cependant, il n'est pas clair comment les responsables de la mise en œuvre de l'enquête peuvent utiliser les erreurs de prédiction pour quantifier ou améliorer la précision des bases de sondage des enquêtes auprès des ménages.

De nombreuses études ont évalué l'exactitude des estimations de population maillées par rapport aux emplacements de peuplement recueillis au sol [72], par rapport aux données de recensement disponibles à une échelle plus fine que les données de recensement utilisées dans le modèle [29, 73, 74, 75, 76], et en comparant les anciens et les nouveaux ensembles de données de population maillées où le nouvel ensemble de données utilise des données de population mises à jour ou à une échelle plus fine [38]. Pourtant, ces preuves ne sont pas suffisantes pour évaluer l'exactitude d'un ensemble de données de population maillée descendante spécifique. Étant donné le nombre de composantes qui contribuent à l'erreur du modèle de population maillée, les recherches futures devraient utiliser des études de simulation pour tester les effets de diverses composantes du modèle sur les estimations de la population maillée. Ces études devraient également recadrer la façon dont les erreurs d'estimation sont traitées (par exemple, plutôt que de demander « quelle erreur existe-t-il autour de l'estimation pour chaque cellule de taille X ? », les chercheurs devraient demander « combien de cellules doivent être agrégées pour obtenir une erreur de O ?").

Problème d'unité de surface modifiable

Deuxièmement, les approches de segmentation et de croissance pour la sélection d'unités d'échantillonnage pourraient être sujettes à un biais de la MAUP. Des études de simulation devraient être utilisées pour quantifier les effets des tailles et des groupements des cellules de la grille sur les probabilités de sélection des UPE. En outre, le développement de bases de sondage géographiquement et socialement sensibles avec des données de population maillées devrait être poursuivi. La capacité de créer une base de sondage quadrillée sensible de la population dépend fortement de la disponibilité de données environnementales précises à échelle fine et d'estimations quadrillées des caractéristiques socio-sanitaires de la population.

Pondérations d'échantillonnage des UPE adaptatives

Troisièmement, lorsque des approches de croissance sont utilisées pour la sélection des UPE, des recherches supplémentaires sont nécessaires pour évaluer si des poids d'échantillonnage adaptatifs doivent être utilisés et, le cas échéant, comment les formuler. Ces questions peuvent être évaluées avec la théorie statistique et des études de simulation.

Disponibilité des images satellites

Quatrièmement, toutes les approches d'échantillonnage de population maillée décrites ici dépendent de l'accès à des images satellitaires à haute résolution avec une bonne visibilité des habitations sans couverture arborée ou nuageuse étendue. Des échantillons de population maillées existants ont été mis en œuvre dans des villes, des camps, des déserts, des savanes et des terres agricoles déboisées. Les méthodes de mise en œuvre d'échantillons de population maillées n'ont pas été décrites pour les zones boisées.

Dissimuler les emplacements des PSU dans les publications et les cartes de crowdsourcing

Cinquièmement, les échantillons de population quadrillés qui utilisent des cartes de crowdsourcing dans le travail sur le terrain doivent garantir l'anonymat des répondants à l'enquête et de leurs communautés. Les cartes de foule peuvent être extrêmement précieuses pour la navigation sur le terrain et le dénombrement des ménages, bien que la technologie et les protocoles pour soutenir les activités d'enquête soient limités. Les protocoles standard n'ont pas encore été établis pour masquer les emplacements des PSU d'enquête lors de la cartographie des bâtiments et des routes dans une plate-forme participative telle qu'OpenStreetMap™. De plus, nous ne connaissons aucune application permettant aux enquêteurs de mettre à jour OpenStreetMap™ et de stocker séparément une liste confidentielle des ménages liée à l'emplacement des bâtiments, dont les enquêteurs auraient besoin pour identifier les ménages échantillonnés. Comme dans toute enquête, les limites des PSU et les emplacements des points centroïdes ne doivent pas être partagés publiquement pour protéger l'anonymat des répondants et de leurs communautés. Les emplacements des points PSU peuvent être publiés s'ils sont géo-déplacés de manière aléatoire en suivant des méthodes telles que celles utilisées par MeasureDHS [77]. Le projet MeasureDHS publie les coordonnées centroïdes des PSU qui sont déplacées jusqu'à 2 km dans les zones urbaines et jusqu'à 5 km dans les zones rurales, avec un point rural sur 100 déplacés jusqu'à 10 km.

Faisabilité du travail sur le terrain

La sixième préoccupation de l'échantillonnage de la population maillée est la faisabilité du travail sur le terrain. Bien qu'il existe de nombreuses raisons d'utiliser un échantillonnage de population maillée, les protocoles d'utilisation de ces méthodes sur le terrain doivent être développés davantage. Quel est le protocole de dénombrement dans une UPE qui tombe des deux côtés d'une rivière où il n'y a pas de pont à traverser à proximité ? Les bâtiments devraient-ils être dénombrés s'ils sont coupés par la limite de l'UPE ? Étant donné que les limites quadrillées des UPE ne suivent pas les limites géographiques ou administratives sensibles, des images satellites récentes sont presque certainement nécessaires pendant le dénombrement. Quelle est la résolution d'image minimale requise pour l'échantillonnage dans les zones rurales par rapport aux zones urbaines ? Quelle doit être la date de l'imagerie satellite ? Quels sont les compromis liés à l'utilisation de méthodes de dénombrement numérique par rapport aux méthodes sur papier ? Bien que l'utilisation de téléphones intelligents ou de tablettes pour dénombrer numériquement les UPE augmente le coût et les compétences requises des enquêteurs, elle peut également réduire le temps et augmenter la précision du dénombrement par rapport aux méthodes au stylo et au papier. De nombreux problèmes liés au coût, au temps, à la précision, à la technologie et aux compétences requises du personnel pour mettre en œuvre des enquêtes de population maillées doivent être évalués.


Abstrait

On peut s'attendre à ce que le domaine vital d'un animal englobe les ressources dont il a besoin pour survivre ou se reproduire. Ainsi, les animaux habitant un paysage hétérogène, où les parcelles de ressources varient en taille, en forme et en distribution, auront naturellement des domaines vitaux de tailles variées, de sorte que chaque domaine vital englobe une quantité minimale requise d'une ressource. La taille du domaine vital peut être estimée à partir des données de télémétrie, et souvent les ressources clés, ou leurs approximations, telles que les zones de types d'habitats importants, peuvent être cartographiées. Nous proposons une nouvelle méthode, Resource-Area-Dependence Analysis (RADA), qui utilise un échantillon d'animaux suivis et une carte catégorique pour i) déduire dans quelles catégories cartographiques les ressources importantes sont accessibles, ii) dans quels noyaux de domaine vital elles se trouvent , et iii) estimer les superficies minimales moyennes de ces catégories cartographiques requises pour une telle fourniture de ressources. Nous fournissons trois exemples d'application de RADA à des ensembles de données d'animaux suivis par radio du sud de l'Angleterre : 15 écureuils roux Sciurus vulgaris, 17 écureuils gris S. carolinensis et 114 buses communes Buteo buteo. Les analyses ont montré que chaque écureuil roux nécessitait en moyenne (95 % CL) de 0,48 ha (0,24–-0,97) de bois de pin dans le domaine vital le plus éloigné, chaque écureuil gris avait besoin de 0,34 ha (0,11–1,12) ha de forêt décidue mature et 0,035–0,046 ha de blé, également dans le domaine vital le plus éloigné, tandis que chaque buse nécessitait 0,54 ha (0,35–0,82) de terrain accidenté près du centre du domaine vital et 14 ha (11–17) de prairie dans un noyau, avec 52% d'entre eux s'appuyant également sur 0,41 ha (0,29–0,59) de terres suburbaines près du centre du domaine vital. RADA fournit ainsi un outil utile pour déduire les besoins clés en ressources animales lors d'études sur les déplacements des animaux et l'utilisation de l'habitat.

Citation: Kenward RE, Arraut EM, Robertson PA, Walls SS, Casey NM, Aebischer NJ (2018) Analyse de la dépendance des ressources à la zone : Déduire les besoins en ressources animales à partir des données de domaine vital et de cartographie. PLoS ONE 13(10) : e0206354. https://doi.org/10.1371/journal.pone.0206354

Éditeur: Rob Slotow, Université du Kwazulu-Natal, AFRIQUE DU SUD

A reçu: 22 décembre 2017 Accepté: 11 octobre 2018 Publié : 24 octobre 2018

Droits d'auteur: © 2018 Kenward et al. Il s'agit d'un article en libre accès distribué sous les termes de la Creative Commons Attribution License, qui permet une utilisation, une distribution et une reproduction sans restriction sur n'importe quel support, à condition que l'auteur original et la source soient crédités.

Disponibilité des données: Les fichiers de données suivants sont disponibles pour un usage public via le Dryad Digital Repository via le lien suivant : http://dx.doi.org/10.5061/dryad.8n183. FUR15xx (avec n'importe quelle extension, données de localisation de 15 écureuils roux radio-marqués), FURHAB (avec n'importe quelle extension, données cartographiques pour analyse avec les écureuils roux FUR15XX), ELTON (avec n'importe quelle extension, données de localisation de 17 écureuils gris radio-marqués), ELHAB1 (avec n'importe quelle extension, données cartographiques pour analyse avec les écureuils gris ELTON) et ALBAUT (avec n'importe quelle extension, données de localisation de 114 buses radio-marquées). La carte de la couverture terrestre de la Grande-Bretagne, qui a été utilisée dans l'analyse concernant les buses, est disponible contre autorisation sur le site public, http://www.ceh.ac.uk/services/land-cover-map-1990.

Le financement: Le financement a été fourni par British Petroleum PLC (www.bp.com) via plusieurs contrats avec le Natural Environment Research Council (www.nerc.ac.uk), ainsi que par Biotrack Ltd (www.biotrack.co.uk), Anatrack Ltd (www.anatrack.com), le Game and Wildlife Conservation Trust (www.gwct.org.uk), l'Université de Newcastle (www.newcastle.ac.uk), le Conselho Nacional de Desenvolvimento Cientifico e Tecnologico do Brasil (CNPq), Instituto Nacional de Ciencia e Tecnologia para Mudancas Climaticas (INCT-MC) et Université d'Oxford (www.oxford.ac.uk). Les bailleurs de fonds ont apporté un soutien sous forme de salaires aux auteurs [REK, EMA, SSW, NJA, PAR, NMC], mais n'ont joué aucun rôle supplémentaire dans la conception de l'étude, la collecte et l'analyse des données, la décision de publier ou la préparation de l'étude. manuscrit. Les rôles spécifiques de ces auteurs sont articulés dans la section « contributions des auteurs ».

Intérêts concurrents : Le financement a été fourni par British Petroleum PLC (www.bp.com) via plusieurs contrats avec le Natural Environment Research Council (www.nerc.ac.uk), ainsi que par Biotrack Ltd (www.biotrack.co.uk), Anatrack Ltd (www.anatrack.com), le Game and Wildlife Conservation Trust (www.gwct.org.uk), l'Université de Newcastle (www.newcastle.ac.uk), le Conselho Nacional de Desenvolvimento Cientifico e Tecnologico do Brasil (CNPq), Instituto Nacional de Ciencia e Tecnologia para Mudancas Climaticas (INCT-MC) et Université d'Oxford (www.oxford.ac.uk). Les bailleurs de fonds ont apporté un soutien sous forme de salaires aux auteurs [REK, EMA, SSW, NJA, PAR, NMC], mais n'ont joué aucun rôle supplémentaire dans la conception de l'étude, la collecte et l'analyse des données, la décision de publier ou la préparation de l'étude. manuscrit. Les rôles spécifiques de ces auteurs sont articulés dans la section « contributions des auteurs ». Cela ne modifie pas notre adhésion aux politiques de PLOS ONE sur le partage de données et de documents.


SIG avancé

1. est mis en place pour atteindre les objectifs spécifiques de collecte, de stockage, d'analyse et de présentation des informations de manière systématique.

2. structurellement est composé de composants interdépendants qui incluent une combinaison de données et de ressources techniques et humaines

3. être composé de systèmes d'entrée, de traitement et de sortie, fonctionnant tous selon un ensemble bien défini de procédures et de protocoles opérationnels.

4. peut être exploité indépendamment et en même temps lié à d'autres systèmes d'information

  • Les données et les ressources techniques et humaines utilisées pour former le système
  • protocole de communication et procédure de gestion des données
  • sous-systèmes fonctionnels
  • mode autonome ou réseau des systèmes ou mode réseau des configurations de systèmes
ceux conçus pour traiter des données qui ne sont référencées à aucune position dans l'espace géographique. Par exemple, un système de comptabilité.
ceux conçus pour traiter des données relatives à des caractéristiques ou des phénomènes du monde réel qui sont décrits en termes d'emplacements

Tous les systèmes d'information spatiale peuvent être considérés comme des SIG

Les systèmes CAD, les systèmes CAM sont également des systèmes d'information spatiale

Seuls les systèmes d'information spatiale utilisés pour le traitement et l'analyse de données géospatiales ou de données référencées géographiquement peuvent être étiquetés en tant que SIG


Voir la vidéo: GeoMYTNMAC QGIS 51 Points vers Polygones. Générer une couche de polygones à partir des points. (Octobre 2021).