Données discrètes et alternatives à l'ACP

J'ai un ensemble de données de variables discrètes (ordinales, méristiques et nominales) décrivant les caractères morphologiques des ailes de plusieurs espèces d'insectes étroitement apparentées. Ce que je cherche à faire, c'est de mener une sorte d'analyse qui me donnerait une représentation visuelle de la similitude des différentes espèces en fonction des caractéristiques morphologiques. La première chose qui m'est venue à l'esprit était PCA (c'est le type de visualisation que je cherche à créer), mais après y avoir étudié (en particulier d'autres questions telles que: l' analyse des composants principaux peut-elle être appliquée à des ensembles de données contenant un mélange de et variables catégoriques?), il semble que l'ACP soit inappropriée pour des données discrètes (l'ACP est utilisée dans ces types d'études dans la littérature, mais toujours avec des données continues). Ignorant le contexte statistique de la raison pour laquelle ces données sont inappropriées, l'ACP me donne des résultats relativement parfaits en ce qui concerne ma question biologique (les groupes hybrides d'intérêt se situent au milieu de leurs groupes paternels).

J'ai également essayé plusieurs analyses de correspondance pour apaiser les statistiques (du moins pour autant que je sache), mais je n'arrive pas à obtenir un graphique similaire à celui que j'obtiendrais avec l'ACP, où mes observations (les individus biologiques) sont séparés disons par couleur pour montrer les différents groupements (différentes espèces, biologiquement parlant). Il semble que cette analyse vise à décrire comment les variables (ici, mes caractéristiques morphologiques) sont liées les unes aux autres, pas les observations individuelles. Et lorsque je trace des observations colorées par groupe, je n'obtiens qu'une seule valeur (peut-être une moyenne) décrivant l'ensemble des individus. J'ai fait l'analyse en R, donc peut-être que je ne suis pas assez averti pour que mon idée de l'intrigue fonctionne.

Ai-je raison d'essayer ce type d'analyse avec mes données, ou suis-je loin de la piste? Si vous ne pouviez pas le dire, mon expertise statistique est limitée, donc les équations qui se produisent sous ces analyses sont bien au-dessus de ma tête. J'essaie de mener cette analyse de manière complètement descriptive (je n'ai pas besoin de faire plus de calculs en aval), et j'ai lu que si c'est le cas, l'ACP suffira, mais je veux m'assurer que je ne suis pas violant trop d'hypothèses statistiques.

— JD
source

Vous devriez pouvoir obtenir le type de tracé que vous souhaitez grâce à l'analyse de plusieurs correspondances. Si vous pouvez nous donner un lien vers vos données, nous pourrions y jeter un œil. La mise à l'échelle multidimensionnelle est une autre possibilité, mais le MCA peut être considéré comme une sorte de mise à l'échelle multidimensionnelle

— kjetil b halvorsen

Le regroupement de classes latentes est une autre option méthodologique. Fondamentalement, l'ACV crée un «modèle» dont l'hétérogénéité du résidu est utilisée pour se regrouper. Historiquement, il y a eu 2 grands axes de recherche dans la littérature, tous deux sociologiques. L'ACV d'origine remonte à Lazarsfeld à Columbia dans les années 50, n'était pas supervisée et utilisait des données catégorielles - le poLCA de R en est un exemple. Plus récemment, des modèles de mélanges finis supervisés pour l'ACV ont été développés. Je ne connais pas les modules R, mais il existe un logiciel commercial peu coûteux qui le fait ( Latent Gold ). Le site Web de LG contient de bons articles sur l'ACV

— Mike Hunter

Cela dépend un peu de votre objectif, mais si vous recherchez un outil de visualisation, il est judicieux d'appliquer une mise à l'échelle multidimensionnelle à la sortie de la proximité de forêt aléatoire qui peut produire de jolies images et fonctionnera pour un mélange de données catégoriques et continues. Ici, vous classeriez les espèces selon vos prédicteurs. Mais - et c'est une grosse mise en garde - je ne sais pas si quelqu'un sait vraiment ce que signifie la sortie de ces visualisations.

Une autre alternative pourrait être d'appliquer une mise à l'échelle multidimensionnelle à quelque chose comme la similitude de Gower.

Il y a une question pendante - quel est votre but ultime? A quelle question voulez-vous répondre? J'aime ces techniques comme outils d'exploration pour peut-être vous amener à poser des questions plus nombreuses et meilleures, mais je ne suis pas sûr de ce qu'elles expliquent ou vous disent par elles-mêmes.

Je lis peut-être trop votre question, mais si vous voulez explorer quelles variables prédictives ont les valeurs des hybrides entre les deux espèces pures, vous feriez mieux de construire un modèle pour estimer les valeurs des variables prédictives qui conduisent directement aux espèces et aux hybrides. Si vous souhaitez mesurer la façon dont les variables sont liées les unes aux autres, créez peut-être une matrice de corrélation - et il existe de nombreuses visualisations soignées pour cela.

— Patrick Caldon
source

Merci de votre contribution. En fin de compte, tout ce que je veux de cette analyse est d'avoir une mesure quantitative de la similitude de certaines espèces par rapport à d'autres (j'ai deux espèces qui, basées uniquement sur l'apparence de la gestalt, ressemblent à une autre espèce étroitement liée, mais semblent génétiquement similaires à une espèce différente, suggérant une hybridation ancienne). Le point principal de cette question de recherche est d'étudier la génétique du groupe, et cette analyse morphologique ne fera qu'ajouter à toute l'histoire biologique. Cette mise à l'échelle multidimensionnelle conduirait-elle à une visualisation similaire à l'ACP?

— JD

Vous obtenez des visualisations similaires. L'idée / intuition de MDS est de construire une cartographie à partir d'un espace de grande dimension (pour vous l'espace des caractéristiques morphologiques) vers un espace de faible dimension (comme un plan plat 2D) de telle sorte que la distance dans l'espace de haute dimension soit "à peu près la même "que l'espace à faible diension. Vous pouvez ensuite tracer le plan plat 2D. Mais cela dépend de l'obtention d'une métrique de distance pour l'espace de grande dimension de quelque part.

— Patrick Caldon