Une base de données de (population, superficie, forme) peut être utilisée pour cartographier la densité de population en attribuant une valeur constante de population / superficie à chaque forme (qui est un polygone tel qu'un bloc de recensement, un secteur, un comté, un état, etc.). Cependant, les populations ne sont généralement pas réparties uniformément dans leurs polygones. La cartographie dasymétrique est le processus d'affinage de ces estimations de densité au moyen de données auxiliaires. C'est un problème important en sciences sociales comme l' indique cette récente revue .
Supposons donc que nous disposions d'une carte auxiliaire de la couverture terrestre (ou de tout autre facteur discret). Dans le cas le plus simple, nous pouvons utiliser des zones manifestement inhabitables comme des plans d'eau pour délimiter où la population ne se trouve pas et, par conséquent, affecter toute la population aux zones restantes. Plus généralement, chaque unité de recensement est découpée en portions de surfaces , . Notre jeu de données est ainsi augmenté à une liste de tuples
où est la population (supposée mesurée sans erreur) dans l'unité j et - bien que ce ne soit pas strictement le cas - nous pouvons supposer que chaque x j i est également exactement mesuré. En ces termes, l'objectif est de partitionner chaque y j en une somme
où chaque et z j i estime la population au sein de l'unité j résidant dans la classe de couverture terrestre i . Les estimations doivent être non biaisées. Cette partition affine la carte de densité de population en affectant la densité z j i / x j i à l'intersection du j ème polygone de recensement et de la i ème classe de couverture terrestre.
Ce problème diffère des paramètres de régression standard à bien des égards:
- Le partitionnement de chaque doit être exact.
- Les composants de chaque partition doivent être non négatifs.
- Il n'y a (par hypothèse) aucune erreur dans aucune des données: tous les chiffres de population et toutes les zones x j i sont corrects.
Il existe de nombreuses approches pour une solution, comme la méthode de " cartographie dasymétrique intelligente ", mais toutes celles que j'ai lues ont des éléments ad hoc et un potentiel évident de biais. Je cherche des réponses qui suggèrent des méthodes statistiques créatives et exploitables par ordinateur. La demande immédiate concerne une collection de c. - 10 6 Unités de recensement comptant en moyenne 40 personnes (bien qu'une fraction appréciable compte 0 personne) et une douzaine de classes de couverture terrestre.