Le travail de Gary King, en particulier son livre "Une solution au problème d'inférence écologique" (les deux premiers chapitres sont disponibles ici ), serait intéressant (ainsi que le logiciel d' accompagnement qu'il utilise pour l'inférence écologique). King montre dans son livre comment les estimations des modèles de régression utilisant des données agrégées peuvent être améliorées en examinant les limites potentielles des groupements de niveau inférieur sur la base des données agrégées disponibles. Le fait que vos données soient principalement des regroupements catégoriels les rend aptes à cette technique. (Bien que ne soyez pas dupe, ce n'est pas autant une solution omnibus que vous pourriez l'espérer étant donné le titre!) Des travaux plus récents existent, mais le livre de King est l'OMI le meilleur endroit pour commencer.
Une autre possibilité serait simplement de représenter les limites potentielles des données elles-mêmes (dans des cartes ou des graphiques). Ainsi, par exemple, vous pouvez avoir la répartition par sexe rapportée au niveau agrégé (disons 5 000 hommes et 5 000 femmes), et vous savez que ce niveau agrégé comprend 2 unités de petite superficie différentes de 9 000 et 1 000 individus. Vous pouvez alors représenter cela comme un tableau de contingence du formulaire;
Men Women
Unit1 ? ? 9000
Unit2 ? ? 1000
5000 5000
Bien que vous ne disposiez pas des informations dans les cellules pour les agrégations de niveau inférieur, à partir des totaux marginaux, nous pouvons construire des valeurs potentielles minimales ou maximales pour chaque cellule. Ainsi, dans cet exemple, la Men X Unit1
cellule ne peut prendre que des valeurs comprises entre 4 000 et 5 000 (à chaque fois que les distributions marginales sont plus inégales, plus l'intervalle de valeurs possibles des cellules est petit). Apparemment, il est plus difficile d'obtenir les limites du tableau que je ne le pensais ( Dobra et Fienberg, 2000 ), mais il semble qu'une fonction soit disponible dans la eiPack
bibliothèque de R ( Lau et al., 2007, p. 43 ).
L'analyse multivariée avec des données de niveau agrégé est difficile, car un biais d'agrégation se produit inévitablement avec ce type de données. (En un mot, je décrirais simplement le biais d'agrégation car de nombreux processus de génération de données au niveau individuel pourraient entraîner des associations au niveau agrégé) Une série d'articles dans l' American Sociological Reviewdans les années 1970 sont quelques-unes de mes références préférées pour les sujets (Firebaugh, 1978; Hammond, 1973; Hannan et Burstein, 1974) bien que des sources canoniques sur le sujet puissent être (Fotheringham et Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Je pense que représenter les limites potentielles que les données pourraient prendre pourrait être incitatif, bien que vous soyez vraiment paralysé par les limites des données agrégées pour effectuer une analyse multivariée. Cela n'empêche cependant personne de le faire en sciences sociales (pour le meilleur ou pour le pire!)
Notez, (comme Charlie l'a dit dans les commentaires) que la "solution" de King a suscité beaucoup de critiques (Anselin & Cho, 2002; Freedman et al., 1998). Bien que ces critiques ne soient pas à proprement parler sur les mathématiques de la méthode de King, plus encore en ce qui concerne les situations dans lesquelles la méthode de King ne tient toujours pas compte du biais d'agrégation (et je suis d'accord avec Freedman et Anselin en ce que les situations dans lesquelles les données pour les sciences sociales sont encore suspectes sont beaucoup plus courantes que celles qui répondent aux hypothèses de King). C'est en partie la raison pour laquelle je suggère simplement d'examiner les limites (il n'y a rien de mal à cela), mais faire des inférences sur les corrélations au niveau individuel à partir de ces données nécessite beaucoup plus de sauts de foi qui sont finalement injustifiés dans la plupart des situations.
Citations
- Anselin, L. et WKT Cho (2002). Effets spatiaux et inférence écologique. Analyse politique 10 (3): 276-297.
- Dobra A. et SE Fienberg (2000). Limites des entrées de cellules dans les tableaux de contingence, compte tenu des totaux marginaux et des graphiques décomposables. Actes de l'Académie nationale des sciences 97 (22): 11885-11892
- Firebaugh, G. (1978). Une règle pour inférer des relations individuelles à partir de données agrégées. American Sociological Review 43 (4): 557-572
- Fotheringham, AS et DW Wong (1991). Le problème des unités surfaciques modifiables dans l'analyse statistique multivariée. Environnement et planification A 23 (7): 1025-1044
- Freedman, DA, SP Klein, M. Ostland et MR Roberts (1998). Œuvres commentées: une solution au problème de l'inférence écologique par G. King. Journal de l'American Statistical Association 93 (444): 1518-1522. (PDF ici )
- Hammond, JL (1973) Deux sources d'erreur dans les corrélations écologiques. American Sociological Review 38 (6): 764-777
- Hannan, MT et L. Burstein (1974). Estimation à partir d'observations groupées. American Sociological Review 39 (3): 374-392
- King G. (1997). Une solution au problème d'inférence écologique: Reconstruire le comportement individuel à partir de données agrégées . Princeton: Princeton University Press.
- Lau O., RT Moore et M. Kellerman (2007). eiPack: Inférence écologique RXC et gestion des données de plus grande dimension. R News 7 (2): 43-47
- Oppenshaw, S. (1984). Le problème de l'unité de surface modifiable . Norwich: Geo Books. ( PDF ici )
- Robinson, WS (1950). Les corrélations écologiques et le comportement des individus. American Sociological Review 15 (3): 351-357. ( PDF ici )