Technique de réduction des données pour identifier les types de pays

11

J'enseigne un cours d'introduction à la géographie économique. Pour aider mes élèves à mieux comprendre les types de pays que l'on trouve dans l'économie mondiale contemporaine et à apprécier les techniques de réduction des données, je veux construire un devoir qui crée une typologie de différents types de pays (par exemple, les pays à revenu élevé et à revenu élevé). valeur ajoutée mfg longue espérance de vie; exportateur de ressources naturelles à revenu élevé espérance de vie moyenne-élevée; l'Allemagne étant un élément du premier type et le Yémen un exemple du deuxième type). Cela utiliserait des données du PNUD accessibles au public (qui, si je me souviens bien, contiennent des données socioéconomiques sur un peu moins de 200 pays; désolé, aucune donnée régionale n'est disponible).

Avant cette affectation, il y en aurait une autre qui leur demanderait (en utilisant les mêmes --- en grande partie des intervalles ou des niveaux de rapport ---) d'examiner les corrélations entre ces mêmes variables.

J'espère qu'ils développeront d'abord une intuition pour les types de relations entre les différentes variables (par exemple, une relation positive entre l'espérance de vie et [divers indicateurs de] richesse; une relation positive entre la richesse et la diversité des exportations). Ensuite, lors de l'utilisation de la technique de réduction des données, les composantes ou facteurs auraient un sens intuitif (par exemple, le facteur / composante 1 saisit l'importance de la richesse; le facteur / composante 2 saisit l'importance de l'éducation).

Étant donné que ce sont des étudiants de deuxième à quatrième année, souvent avec une exposition limitée à la pensée analytique plus généralement, quelle technique de réduction de données unique suggéreriez-vous comme la plus appropriée pour le deuxième devoir? Ce sont des données de population, donc les statistiques inférentielles (p-vlaues, etc.) ne sont pas vraiment nécessaires.

pca factor-analysis dimensionality-reduction

— rabidotter
source

10

En tant que méthode exploratoire, l'ACP est un bon premier choix pour une mission comme cette OMI. Ce serait aussi bien pour eux de s'y exposer; il semble que beaucoup d'entre eux n'aient jamais vu de composants principaux auparavant.

En termes de données, je voudrais également vous signaler les indicateurs de la Banque mondiale, qui sont remarquablement complets: http://data.worldbank.org/indicator .

— JMS
source

5

Je suis d'accord avec JMS, et PCA semble être une bonne idée après avoir examiné les corrélations initiales et les diagrammes de dispersion entre les variables pour chaque comté. Ce fil contient quelques suggestions utiles pour introduire l'ACP en termes non mathématiques.

Je suggérerais également d'utiliser de petites cartes multiples pour visualiser les distributions spatiales de chacune des variables (et il y a de bons exemples dans cette question sur le site gis.se). Je pense que cela fonctionne particulièrement bien si vous avez un nombre limité d'unités de surface à comparer et que vous utilisez un bon schéma de couleurs (comme cet exemple sur le blog d'Andrew Gelman).

Malheureusement, la nature de tout ensemble de données sur les "pays du monde", je suppose, entraînerait fréquemment la rareté des données (c'est-à-dire beaucoup de pays manquants), ce qui rend la visualisation géographique difficile. Mais ces techniques de visualisation devraient également être utiles dans d'autres situations pour votre cours.

— Andy W
source

+1, belles références. Comparer les cartes des variables aux cartes des scores PCA pourrait également être intéressant.

— JMS

Le lien vers l'introduction de l'ACP en termes non mathématiques a été utile, car il m'a aidé à comprendre la différence subtile entre l'ACP et l'analyse factorielle. Les suggestions SIG / cartographie sont également très utiles, car je n'avais pas pensé à visualiser la distribution spatiale des variables. Pour cette population d'étudiants, cela les aiderait à saisir les structures sous-jacentes de l'économie mondiale d'une manière que tout mon bla bla bla ne le ferait pas.

— rabidotter

1

De beaux complots battent souvent bla bla bla :)

— JMS

4

Une note ajoutée rapidement: Quelle que soit la technique que vous utilisez ci-dessus, vous voudrez d'abord vérifier les distributions de vos variables car beaucoup d'entre elles "exigeront" que vous les transformiez d'abord à l'aide d'un logarithme. Cela révélera certaines des relations bien mieux que ne le feraient les variables d'origine.

— rolando2
source

3

+1 Normalement, une réponse comme celle-ci doit simplement être publiée sous forme de commentaire, mais les conseils sont si importants ici qu'ils bénéficient de tous les efforts possibles. Les résultats de l'ACP en particulier ne seront probablement pas informatifs jusqu'à ce que les variables soient correctement ré-exprimées.

— whuber

2

Vous pouvez utiliser la décomposition CUR comme alternative à l'ACP. Pour la décomposition CUR, vous pouvez vous référer à [1] ou [2]. Dans la décomposition CUR, C représente les colonnes sélectionnées, R représente les lignes sélectionnées et U est la matrice de liaison. Permettez-moi de paraphraser l'intuition derrière la décomposition CUR comme indiqué dans [1];

Bien que la SVD tronquée soit largement utilisée, les vecteurs et eux-mêmes peuvent manquer de sens en termes de champ à partir duquel les données sont tirées. Par exemple, le vecteur propre $u_i$ $v_i$
[(1/2)age − (1/ √2)height + (1/2)income]
étant l'un des «facteurs» ou «caractéristiques» non corrélés significatifs d'un ensemble de données des caractéristiques des personnes, n'est pas particulièrement informatif ou significatif.

La bonne chose à propos de CUR est que les colonnes de base sont des colonnes (ou lignes) réelles et mieux à interpréter par opposition à PCA (qui utilise SVD trancré).

L'algorithme donné dans [1] est facile à implémenter et vous pouvez jouer avec lui en modifiant le seuil d'erreur et obtenir un nombre différent de bases.

[1] MW Mahoney et P. Drineas, «Décompositions matricielles CUR pour une meilleure analyse des données», Actes de la National Academy of Sciences des États-Unis d'Amérique, vol. 106, janvier 2009, p. 697-702.

[2] J. Sun, Y. Xie, H. Zhang et C. Faloutsos, «Less is more: Compact matrix decomposition for large sparse graphs», Actes de la septième conférence internationale SIAM sur l'exploration de données, Citeseer, 2007, p . 366.

— Petrichor
source

2

Selon vos objectifs, la classification des registres sur les groupes peut être mieux réalisée par une méthode de clustering. Pour un nombre relativement restreint de cas, le regroupement hiérarchique est généralement le mieux adapté, au moins dans la phase exploratoire, tandis que pour une solution plus raffinée, vous pourriez envisager un processus itératif comme K-means. Selon le logiciel que vous utilisez, il est également possible d'utiliser un processus, qui est dans SPSS, mais je ne sais pas où d'autre, appelé clustering en deux étapes, qui est rapide, bien qu'opaque, et semble donner de bons résultats.

L'analyse en grappes fournit une solution de classification qui maximise la variance entre les groupes tout en minimisant la variance à l'intérieur desdits groupes. Elle donnera également probablement des résultats plus faciles à interpréter.

— Tomas Boncompte
source

2

Je suggère de regrouper les variables et les observations (séparément) pour faire la lumière sur l'ensemble de données. Le regroupement de variables (par exemple, en utilisant Spearmean comme mesure de similitude comme dans la fonction du package R ) aidera à voir quelles variables "fonctionnent ensemble". $\rho^2$ Hmiscvarclus

— Frank Harrell
source

1

Une autre option serait d'utiliser des cartes auto-organisées (SOM). Une idée du logiciel que les étudiants utiliseront? Je sais que R, par exemple, a quelques implémentations SOM. Cependant, les SOM peuvent échouer à votre test "les facteurs des composants ont un sens intuitif". (Pas nécessairement vrai avec PCA non plus ...)

— Wayne
source

Désolé pour avoir mis du temps pour répondre. Les élèves utiliseraient Minitab 16, qui possède certaines des techniques de réduction des données les plus traditionnelles mentionnées ci-dessus. J'examinerai des cartes auto-organisées, mais je doute que ce soit approprié pour les types d'étudiants que je reçois dans un cours de premier cycle de deuxième année.

— rabidotter