Comment puis-je simuler des microdonnées de recensement pour de petites régions en utilisant un échantillon de microdonnées de 1% à grande échelle et des statistiques agrégées à petite échelle?


9

Je voudrais effectuer une analyse multivariée au niveau individuel à de petits niveaux d'agrégation géographique (districts de collecte du recensement australien). De toute évidence, le recensement n'est pas disponible à ces petits niveaux d'agrégation pour des raisons de confidentialité, donc j'examine d'autres alternatives. Presque toutes les variables d'intérêt sont catégoriques. J'ai deux jeux de données à ma disposition:

  • L'échantillon de recensement de 1% est disponible à un niveau beaucoup plus élevé d'agrégation spatiale (une zone avec une population d'environ 190 000 habitants et une vaste ségrégation spatiale des données démographiques).

  • Tableaux de fréquence des variables qui m'intéressent au niveau des petites zones (500 petites zones, pop moyenne = 385, sd = 319, médiane = 355).

Comment puis-je utiliser ces deux ensembles de données pour simuler une distribution de la population au niveau d'une petite zone qui est aussi proche que possible de la population réelle de la petite zone?

J'apprécie qu'il puisse y avoir des méthodes de routine pour ce faire; dans ce cas, un pointeur vers un manuel ou des articles de revues pertinents serait grandement apprécié.


éventuellement lié (j'ai un problème similaire): stats.stackexchange.com/questions/14399/… L' échantillonnage de Gibbs pourrait être ce qui est nécessaire ici.
mzuba

Vous voudrez peut-être poser votre question sur la liste de diffusion SRMSNET de l'American Statistical Association. Si vous êtes en Australie, je contacterais Ray Chambers - je suppose que personne ne connaît mieux SAE que lui dans l'hémisphère sud :).
StasK

Ce problème est étroitement lié à la «cartographie dasymétrique».
whuber

1
Je suis d'accord avec @whuber, et la cartographie dasymétrique peut également être intéressante pour fmark compte tenu du sujet. Malheureusement, elle est en grande partie distincte de la littérature sur l'inférence écologique que j'ai citée dans ma réponse (je ne veux pas empiler davantage de littérature!) Que pensez-vous de la marque?
Andy W

1
Certaines techniques de cartographie dasymétrique ont commencé à utiliser des données auxiliaires pour tenter d'interpoler les données sur des zones plus petites. Les objectifs de l'inférence écologique et de la cartographie dasymétrique sont quelque peu différents (quelque peu analogues à la différence entre la prédiction / prévision et l'inférence). J'écrirai un autre article sur les sources que j'ai recueillies qui, je pense, serait également intéressant. Malheureusement, je ne peux pas donner de conseils beaucoup plus utiles que de citer un tas de littérature. C'est un sujet contemporain populaire, et j'espère que vous pourrez y contribuer!
Andy W

Réponses:


5

La cartographie dasymétrique est principalement axée sur l'interpolation des estimations de population dans des zones plus petites que celles disponibles dans les données actuellement diffusées (voir cette question pour une multitude de références utiles sur le sujet). Souvent, cela a été fait en identifiant simplement les zones (sur la base des caractéristiques des terres) dans lesquelles il n'y a évidemment pas de population, puis en réestimant les densités de population (en omettant ces zones). Un exemple pourrait être s'il y a un plan d'eau dans une ville, un autre pourrait être si vous identifiez des parcelles industrielles qui ne peuvent pas avoir de population résidentielle. Des approches plus récentes de la cartographie dasymétrique incorporent d'autres données auxiliaires dans un cadre probabiliste pour allouer des estimations de population (Kyriakidis, 2004; Liu et al., 2008; Lin et al., 2011; Zhang et Qiu, 2011).

Maintenant, il est facile de voir la relation avec votre question. Vous voulez les estimations de la population des petites régions. Mais, il devrait également être clair comment cela peut être en deçà de vos objectifs. Vous voulez non seulement les données démographiques, mais aussi les caractéristiques de ces populations. L'un des termes utilisés pour décrire cette situation est le problème de changement de soutien (Cressie, 1996; Gotway & Young, 2002). Empruntant à la littérature géostatistique dans laquelle on essaie de faire des prédictions d'une certaine caractéristique sur une large zone à partir d'échantillons ponctuels, des travaux récents ont tenté d'interpoler des données surfaciques à différentes zones cibles. Une grande partie du travail de Pierre Goovaerts se concentre sur de telles méthodes de krigeage zone à point, un article récent de la revue Geographical Analysis a plusieurs exemples de la méthode appliquée à différents sujets (Haining et al., 2010), et l'une de mes applications préférées en est dans cet article (Young et al., 2009).

Ce que je cite ne devrait cependant pas être considéré comme une panacée au problème. En fin de compte, bon nombre des mêmes problèmes d'inférence écologique et de biais d'agrégation s'appliquent également aux objectifs d'interpolation surfacique. Il est probable que de nombreuses relations entre les données au niveau micro sont tout simplement perdues dans le processus d'agrégation, et de telles techniques d'interpolation ne pourront pas les récupérer. De plus, le processus par lequel les données sont interpolées empiriquement (en estimant les variogrammes à partir des données de niveau agrégé) est souvent assez chargé d'étapes ad hoc qui devraient rendre le processus discutable (Goovaerts, 2008).

Malheureusement, je poste ceci dans une réponse séparée car la littérature sur l'inférence écologique et la littérature sur la cartographie dasymétrique et le krigeage de point à point ne se chevauchent pas. Bien que la littérature sur l'inférence écologique ait de nombreuses implications pour ces techniques. Non seulement les techniques d'interpolation sont sujettes à un biais d'agrégation, mais les techniques dasymétriques intelligentes (qui utilisent les données agrégées pour ajuster les modèles pour prédire les zones plus petites) sont probablement suspectes de biais d'agrégation. La connaissance des situations dans lesquelles un biais d'agrégation se produit devrait être éclairante quant aux situations dans lesquelles l'interpolation surfacique et la cartographie dasymétrique échoueront largement (en particulier en ce qui concerne l'identification des corrélations entre différentes variables au niveau désagrégé).


Citations


Merci pour le point de départ utile dans la littérature contemporaine - je n'étais pas au courant des méthodes dasymétriques qui faisaient plus que repenser les densités de population, donc j'examinerai cela avec impatience.
fmark

5

Le travail de Gary King, en particulier son livre "Une solution au problème d'inférence écologique" (les deux premiers chapitres sont disponibles ici ), serait intéressant (ainsi que le logiciel d' accompagnement qu'il utilise pour l'inférence écologique). King montre dans son livre comment les estimations des modèles de régression utilisant des données agrégées peuvent être améliorées en examinant les limites potentielles des groupements de niveau inférieur sur la base des données agrégées disponibles. Le fait que vos données soient principalement des regroupements catégoriels les rend aptes à cette technique. (Bien que ne soyez pas dupe, ce n'est pas autant une solution omnibus que vous pourriez l'espérer étant donné le titre!) Des travaux plus récents existent, mais le livre de King est l'OMI le meilleur endroit pour commencer.

Une autre possibilité serait simplement de représenter les limites potentielles des données elles-mêmes (dans des cartes ou des graphiques). Ainsi, par exemple, vous pouvez avoir la répartition par sexe rapportée au niveau agrégé (disons 5 000 hommes et 5 000 femmes), et vous savez que ce niveau agrégé comprend 2 unités de petite superficie différentes de 9 000 et 1 000 individus. Vous pouvez alors représenter cela comme un tableau de contingence du formulaire;

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000 

Bien que vous ne disposiez pas des informations dans les cellules pour les agrégations de niveau inférieur, à partir des totaux marginaux, nous pouvons construire des valeurs potentielles minimales ou maximales pour chaque cellule. Ainsi, dans cet exemple, la Men X Unit1cellule ne peut prendre que des valeurs comprises entre 4 000 et 5 000 (à chaque fois que les distributions marginales sont plus inégales, plus l'intervalle de valeurs possibles des cellules est petit). Apparemment, il est plus difficile d'obtenir les limites du tableau que je ne le pensais ( Dobra et Fienberg, 2000 ), mais il semble qu'une fonction soit disponible dans la eiPackbibliothèque de R ( Lau et al., 2007, p. 43 ).

L'analyse multivariée avec des données de niveau agrégé est difficile, car un biais d'agrégation se produit inévitablement avec ce type de données. (En un mot, je décrirais simplement le biais d'agrégation car de nombreux processus de génération de données au niveau individuel pourraient entraîner des associations au niveau agrégé) Une série d'articles dans l' American Sociological Reviewdans les années 1970 sont quelques-unes de mes références préférées pour les sujets (Firebaugh, 1978; Hammond, 1973; Hannan et Burstein, 1974) bien que des sources canoniques sur le sujet puissent être (Fotheringham et Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Je pense que représenter les limites potentielles que les données pourraient prendre pourrait être incitatif, bien que vous soyez vraiment paralysé par les limites des données agrégées pour effectuer une analyse multivariée. Cela n'empêche cependant personne de le faire en sciences sociales (pour le meilleur ou pour le pire!)

Notez, (comme Charlie l'a dit dans les commentaires) que la "solution" de King a suscité beaucoup de critiques (Anselin & Cho, 2002; Freedman et al., 1998). Bien que ces critiques ne soient pas à proprement parler sur les mathématiques de la méthode de King, plus encore en ce qui concerne les situations dans lesquelles la méthode de King ne tient toujours pas compte du biais d'agrégation (et je suis d'accord avec Freedman et Anselin en ce que les situations dans lesquelles les données pour les sciences sociales sont encore suspectes sont beaucoup plus courantes que celles qui répondent aux hypothèses de King). C'est en partie la raison pour laquelle je suggère simplement d'examiner les limites (il n'y a rien de mal à cela), mais faire des inférences sur les corrélations au niveau individuel à partir de ces données nécessite beaucoup plus de sauts de foi qui sont finalement injustifiés dans la plupart des situations.


Citations


Notez que d'autres ont critiqué l'approche de King à l'égard du problème de l'erreur écologique; David Freedman en est un exemple notable. Voici la réponse que Freedman et ses coauteurs donnent au livre de King cité ci-dessus: citeseerx.ist.psu.edu/viewdoc/… Bien sûr, King a une réponse et Freedman et al. avoir une réponse à la réponse à la réponse ... Je ne peux pas vraiment comprendre ce que vous essayez de faire et quelles données vous avez, mais je suis généralement très sceptique quant aux analyses de type inférence écologique.
Charlie

Oui, @Charlie, je suis d'accord (et j'apprécie particulièrement l'opinion de Freedman sur la question en général). C'est en partie la raison pour laquelle je signale la littérature générale sur le biais d'agrégation à la fin de mon post. Je ne sais pas trop ce que vous entendez par la déclaration "Je ne peux pas vraiment comprendre ce que vous essayez de faire et quelles données vous avez, mais je suis généralement très sceptique quant aux analyses de type inférence écologique", est-ce dans en ce qui concerne le roi et Freedman se plaignant tous les deux de ne pas partager de données?
Andy W

@Andy, cette technique est-elle la même que ce que les économistes appellent des distributions partiellement identifiées ( springer.com/statistics/statistical+theory+and+methods/book/… )?
StasK

@Andy, non, désolé pour l'ambiguïté. Je parlais en fait au PO. S'il a des tables de fréquences sur la petite zone et veut obtenir des statistiques sur la petite zone, qu'est-ce qui manque? Je suppose qu'il doit avoir juste les marges, mais pas le contenu des cellules, comme vous le suggérez dans votre message.
Charlie

@StasK, je ne sais pas. Je vais vérifier si King fait référence à Manski plus tard cette semaine lorsque j'aurai accès au livre. Il y a probablement un certain chevauchement étant donné que l'inférence écologique est mentionnée dans l'abstrait. Une autre source potentielle (gratuite) pour explorer l'association entre les deux pourrait être le lecteur King édité sur "New Methods in Ecological Inference" ( publié dans son intégralité sur son site Web)
Andy W

2

Je ne suis pas sûr qu'une réponse bien définie existe dans la littérature à ce sujet, étant donné que la recherche Google donne essentiellement trois références utilisables sur l'estimation multivariée de petites zones. Pfeffermann (2002) discute des variables de réponse discrètes dans la section 4 de l'article, mais ce seront des modèles univariés. Bien sûr, avec les méthodes bayésiennes hiérarchiques ( Rao 2003, Ch. 10 ), vous pouvez faire toutes sortes de merveilles, mais si à la fin vous vous retrouvez à reproduire vos priors (parce que vous avez si peu de données), ce serait un terrible résultat de votre exercice de simulation. De plus, Rao ne traite que des variables continues.

Je suppose que le plus grand défi sera la décomposition de la matrice de covariance en composantes entre et à l'intérieur d'une petite zone. Avec un échantillon de 1%, vous n'aurez que 3 observations de votre SAE, il peut donc être difficile d'obtenir une estimation stable de la composante interne.

Si j'étais à votre place, j'essaierais une extension multivariée du modèle de Pfeffermann avec un effet aléatoire multivarié de la petite zone. Vous pouvez en effet vous retrouver avec un modèle bayésien hiérarchique pour cela, si rien ne repose sur la conception.

MISE À JOUR (pour répondre au commentaire d'Andy à cette réponse): les méthodes de bootstrap pour l'estimation de petits domaines ( Lahiri 2003 ) recréent spécifiquement une population plausible à partir de l'étude. Bien que le but de l'exercice de bootstrap soit d'estimer les variances des estimations de petits domaines, les procédures devraient être intéressantes et pertinentes pour le problème affiché.


Je n'évaluerais pas le statut d'une littérature basée sur une recherche Google. Je ne suis pas sûr que l'estimation sur petite zone soit ce que l'auteur recherche dans ce cas. Pour autant que je sache, cette littérature se concentre soit sur la prédiction des caractéristiques dans de petites zones ( Kriegler et Berk, 2010 ), soit sur l'estimation des paramètres dans des modèles à plusieurs niveaux basés sur un petit nombre d'échantillons par unité agrégée.
Andy W

Je ne suis pas sûr que ce que je veux faire, c'est l'estimation sur petits domaines. Si je comprends bien, l'estimation sur petits domaines vise à passer de quelques échantillons dans un petit domaine à des statistiques sommaires agrégées. Je cherche le contraire (pour passer d'une distribution de population sur une grande zone et des statistiques sommaires agrégées sur une petite zone à une population simulée sur une petite zone). Lahiri 2003 semble être un bon point de départ ici.
fmark
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.