Je suis après une description / méthodologie pour mener une analyse en composantes principales pondérée géographiquement (GWPCA). Je suis heureux d’utiliser Python pour n’importe quelle partie de cela et j’imagine que SPSS ou R sont utilisés pour exécuter la PCA sur les variables pondérées géographiquement.
Mon jeu de données est composé d'environ 30 variables indépendantes qui sont mesurées dans environ 550 secteurs de recensement (géométrie vectorielle).
Je sais que c'est une question chargée. Mais, lorsque je cherche et que je cherche, il ne semble pas y avoir de solutions. Ce que j'ai rencontré sont des équations mathématiques qui expliquent la composition fondamentale de GWPCA (et GWR). Ce que je recherche est plus appliqué dans un sens, c’est-à-dire que je recherche les étapes principales que je dois accomplir pour passer des données brutes aux résultats de la GWPCA.
Je voudrais développer la première partie avec cette modification en raison des commentaires reçus ci-dessous.
Pour adresser Paul ...
Je fonde mon intérêt pour GWPCA sur le document suivant:
Lloyd, CD, (2010). Analyse des caractéristiques de la population à l'aide d'une analyse en composantes principales pondérée géographiquement: une étude de cas de l'Irlande du Nord en 2001. Computers, Environment and Urban Systems, 34 (5), p. 389-399.
Pour ceux qui n'ont pas accès à la littérature, j'ai joint des captures d'écran des sections particulières expliquant les mathématiques ci-dessous:
Et pour aborder whuber ...
Sans entrer dans les détails (confidentialité), nous essayons de réduire les 30 variables, que nous considérons tous comme de très bons indicateurs (bien que globalement), à l'ensemble des composants avec des valeurs propres supérieures à 1. En calculant les composants pondérés géographiquement, comprendre les variances locales expliquées par ces composantes.
Notre objectif principal sera de prouver le concept de GWPCA, c'est-à-dire de montrer la nature spatialement explicite de nos données et que nous ne pouvons pas considérer toutes les variables indépendantes comme explicatives à l'échelle mondiale. Plutôt, l'échelle locale (les quartiers) que chaque composante identifiera nous aidera à comprendre la nature multidimensionnelle de nos données (comment les variables peuvent être combinées entre elles pour expliquer certains quartiers de notre zone d'étude).
Nous espérons cartographier le pourcentage de variance représenté par chaque composant (séparément), pour comprendre l'étendue du voisinage expliquée par le composant en question (nous aider à comprendre la spatialité locale de nos composants). Peut-être quelques autres exemples de cartographie, mais aucun ne vient à l'esprit pour le moment.
Aditionellement:
Les mathématiques derrière la GWPCA vont au-delà de ce que je comprends compte tenu de ma formation en analyse géographique et en statistiques sociales. L’application des mathématiques est la plus importante, c’est-à-dire, que dois-je connecter à ces variables / formules?