Comment évaluer la répétabilité des résultats multivariés et spécifiques à la méthode?


8

La méthode "A" décrit des échantillons biologiques utilisant des "empreintes digitales" multivariées qui se composent d'environ 30 variables différentes. Différentes variables montrent une distribution typique différente et beaucoup d'entre elles sont étroitement corrélées les unes aux autres. D'après l'expérience antérieure, on suppose que nous ne pouvons pas transformer de nombreuses variables en distribution normale.

La méthode "B" est conçue pour être une version améliorée de la méthode "A" et nous souhaitons comparer la répétabilité de ces deux méthodes. Si nous avions affaire à une seule variable, nous effectuerions des analyses indépendantes de plusieurs échantillons et utiliserions l'ANOVA afin de comparer la variabilité intra-méthode à inter-méthodes. Mais ici, nous avons affaire à des sorties multivariées et nous ne souhaitons pas effectuer une analyse par variable. Quelles sont les bonnes approches à cette question?

Résolution

La réponse par gui11aume de réponse , fournit des informations utiles et précieux. J'adapterai "l'application en aval" de la réponse de gui11aume en suivant 7 analyses à sens unique comme suggéré par AdamO.


(Voici mon approche. Veuillez me faire savoir à quel point elle est légitime.) Qu'en est-il de l'utilisation d'une méthode de réduction de dimensionnalité robuste pour réduire les données multivariées à une seule dimension et de les analyser?
David D

1
David, ce problème donne l'impression que vous souhaitez effectuer une décomposition de la variance sur un résultat à plusieurs variables, mais le titre semble indiquer que vous recherchez autre chose. Pouvez-vous clarifier? Pouvez-vous également en dire plus sur les données que vous analysez?
Macro

David, pouvez-vous expliquer plus explicitement ce que vous entendez par «répétabilité»? Je soupçonne que c'est similaire à ce que nous (mon domaine est l'analyse chimiométrique des ensembles de données spectroscopiques [échantillons biologiques]) appelons habituellement la stabilité (de sth. Wrt. Sth.), Par exemple: stabilité des prévisions ou paramètres du modèle (deux types très distincts de stabilité!) wrt. vers de nouveaux échantillons / échange de 10% des échantillons, ...
cbeleites mécontent de SX

1
De plus, les 30 variables de sortie sont-elles les mêmes (théoriquement) pour les deux méthodes?
cbeleites mécontents de SX

1
Wrt. à votre réduction de dimensionnalité: vous courriez le risque de mesurer plus les caractéristiques de la méthode de réduction de dimensionnalité que de l'entrée. Vous perdrez certainement toute information orthogonale à la direction capturée par la seule dimension retenue.
cbeleites mécontents de SX le

Réponses:


7

Cela me rappelle le diagnostic du cancer, où les anciennes signatures d'expression génique sont remplacées par des signatures plus récentes, qui sont bien sûr censées être meilleures. Mais comment montrer qu'ils sont meilleurs?

Voici quelques suggestions pour comparer la répétabilité des méthodes.

1. Utilisez l'analyse de co-inertie (CIA).
La CIA devrait être plus annoncée, malheureusement elle n'est pas largement utilisée (pas de page Wikipedia par exemple). CIA est une méthode à deux tables qui fonctionne sur le même principe que l' analyse canonique (CA), qui consiste à rechercher une paire de scores linéaires avec une corrélation maximale entre deux ensembles de mesures multidimensionnelles. Son avantage par rapport à CA est que vous pouvez le faire même si vous avez plus de dimensions que d'observations. Vous pouvez mesurer les deux méthodes sur les mêmes échantillons pour obtenir deux tableaux couplés de 30 colonnes etnobservations. La première paire de composants principaux doit être fortement corrélée (si les méthodes mesurent vraiment la même chose). Si la méthode B est meilleure, la variance résiduelle doit être inférieure à la variance résiduelle de la méthode A. Avec cette approche, vous abordez à la fois l'accord des méthodes et leur désaccord, que vous interprétez comme du bruit.

2. Utilisez une distance .
Vous pouvez utiliser la distance euclidienne en 30 dimensions entre le test et le retest pour mesurer la répétabilité d'une méthode. Vous générez un échantillon de ce score pour chaque méthode et vous pouvez comparer les échantillons avec le test de Wilcoxon.

3. Utilisez l'application en aval.
Vous obtenez probablement ces empreintes digitales pour prendre une décision ou classer des patients ou du matériel biologique. Vous pouvez compter les accords vs désaccords entre les tests et les retests pour les deux méthodes et les comparer avec le test de Wilcoxon.

La méthode 3 est la plus simple, mais aussi la plus terre à terre. Même pour les entrées de grande dimension, les décisions sont généralement assez simples. Et aussi complexe que soit notre problème, gardez à l'esprit que la statistique est la science de la décision.

Concernant la question dans votre commentaire.

Qu'en est-il de l'utilisation d'une méthode de réduction de dimensionnalité robuste pour réduire les données multivariées à une seule dimension et de les analyser?

La réduction de la dimensionnalité, aussi robuste soit-elle, sera associée à une perte de variance. S'il existe un moyen de transformer votre empreinte digitale multivariée en un seul score capturant presque toute sa variance, alors bien sûr, c'est de loin la meilleure chose à faire. Mais alors pourquoi l'empreinte digitale est-elle multivariée en premier lieu?

J'ai supposé à partir du contexte de l'OP que l'empreinte digitale est multivariée précisément parce qu'il est difficile de réduire davantage sa dimensionnalité sans perdre d'informations. Dans ce cas, leur répétabilité sur un seul score ne doit pas être un bon indicateur de la répétabilité globale, car vous pouvez négliger la majorité de la variance (proche de 29/30 dans le pire des cas).


1. vous avez presque raison sur l'application de ce test. 2. En ce qui concerne la distance de Mahalanobis, je ne comprends pas comment elle peut être utilisée pour évaluer la répétabilité. Suggérez-vous de calculer la matrice de covariance pour tous les points de toutes les méthodes ENSEMBLE, puis de comparer les méthodes en échantillonnant MD en utilisant cette matrice? 3. L'application en aval est en effet une option valable, mais elle ne réduira pas la dimensionnalité t
David D

Concernant le point 2. vous avez raison, il est difficile d'appliquer la distance de Mahalanobis. Je l'ai retiré de la réponse.
gui11aume

@ gui11aume: l'entrée multivariée peut être multivariée car il s'agit de données de mesure brutes, c'est-à-dire de variates = canaux de mesure (d'un réseau de capteurs, d'un spectromètre, ...). Dans ce cas, la nature multivariée vient de la nature de la mesure (si un autre point de vue généralement une certaine réduction de la dimension est déjà appliquée sous la forme de sélection de cette puce de capteur ou de cette gamme spectrale particulière)
cbeleites pas satisfait SX

@ gui11aume: Utilisez également votre 3ème approche pour comparer les classificateurs. Mais: je lis de la question et le commentaire de la réduction de dimensionnalité que cette application en aval (qui , en fait , est une réduction drastique de dimenasionality) est probablement pas disponible (ou au moins les 30 eux - mêmes Taxipost devraient être comparés).
cbeleites mécontents de SX le

@ gui11aume: une disctance mesure la similitude, mais à mon humble avis, vous devez également vérifier la direction des écarts, qui est perdue par la distance.
cbeleites mécontents de SX

3

Je suppose à partir de votre question et de votre commentaire que les 30 variables de sortie ne peuvent pas (facilement) ou ne doivent pas être transformées en une seule variable.

Une idée pour gérer les données de XUNE(n×pUNE)XB(n×pB) est que vous pourriez faire une régression de XUNE(n×pUNE)XB(n×pB)et vice versa. Connaissances supplémentaires (par exemple, qui varientje dans l'ensemble A correspond à la variable je également dans l'ensemble B) peut aider à restreindre le modèle de cartographie et / ou à l'interprétation.

Alors qu'en est-il du PCA multi-blocs (ou -PLS) qui va plus loin dans cette idée? Pour ces méthodes, les deux empreintes digitales multivariées pour les mêmes échantillons (ou les mêmes individus) sont analysées ensemble en tant que variables indépendantes, avec ou sans un troisième bloc dépendant.

R. Brereton: "Chemometrics for Pattern Recognition" discute de certaines techniques dans le dernier chapitre ("Comparing Different Patterns") et googler vous mènera à un certain nombre d'articles, également des introductions. Notez que vos situations ressemblent à des problèmes où, par exemple, des mesures spectroscopiques et génétiques sont analysées ensemble (deux matrices avec une correspondance en ligne par opposition à l'analyse, par exemple, des séries temporelles de spectres où un cube de données est analysé).

Voici un article traitant de l'analyse multi-blocs: Sahar Hassani: Analyse des données -omiques: Outils d'interprétation graphique et de validation dans les méthodes multi-blocs .

En outre, c'est peut-être un bon point de départ dans une autre direction: Hoefsloot et.al., Multiset Data Analysis: ANOVA Simultaneous Component Analysis and Related Methods, dans: Comprehensive Chemometrics - Chemical and Biochemical Data Analysis (je n'y ai pas accès). , je viens de voir le résumé)


1

30 Les analyses à sens unique sont certainement une option et constitueraient un type d'analyse «tableau 2» idéal, dans lequel une performance globale est résumée de manière logique. Il se peut que la méthode B produise les 20 premiers facteurs avec une précision légèrement améliorée tandis que les 10 derniers sont beaucoup plus variables. Vous avez le problème de l'inférence en utilisant un espace partiellement ordonné: certainement si tous les 30 facteurs sont plus précis dans B, alors B est une meilleure méthode. Mais il y a une zone "grise" et avec le grand nombre de facteurs, il est presque garanti de se manifester dans la pratique.

Si l'objectif de cette recherche est d'atterrir sur une seule analyse, il est important de considérer le poids de chaque résultat et leur application de point final. Si ces 30 variables sont utilisées dans la classification, la prédiction et / ou le regroupement des données d'observation, j'aimerais voir la validation de ces résultats et une comparaison de A / B dans la classification (en utilisant quelque chose comme des tableaux de stratification du risque ou un biais moyen en pourcentage) , la prédiction (en utilisant le MSE) et le clustering (en utilisant quelque chose comme la validation croisée). C'est la bonne façon de gérer la zone grise dans laquelle vous ne pouvez pas dire que B est mieux analytiquement, mais fonctionne beaucoup mieux en pratique.


1

Je vais essayer une approche ANOVA multivariée basée sur la permutation ( PERMANOVA ). Une analyse d'ordination (basée sur le résultat d'une analyse de longueur de gradient) pourrait également aider.


1
Dans R, il y a la fonction adonis dans le package Vegan qui effectue une ANOVA multivariée permutationnelle. Cela générera un test statistique pour vous dire si la méthode A est différente de la méthode B. Ce package provient de l'écologie végétale où vous comptez plusieurs espèces (les variables) dans différentes petites parcelles. À cela s'ajoute l'AMOVA, analyse de la variance moléculaire , où les variables sont des données moléculaires. Pour cela, vous pouvez utiliser le package R ade4, mais il existe d'autres logiciels gratuits et en ligne que vous pouvez trouver sur le lien.
Jdub

0

Si vous pouviez supposer une normalité multivariée (ce que vous avez dit que vous ne pouviez pas), vous pourriez faire un test Hotelling T2 d'égalité des vecteurs moyens pour voir si vous pouviez réclamer des différences entre les distributions ou non. Cependant, bien que vous ne puissiez pas le faire, vous pouvez toujours comparer théoriquement les distributions pour voir si elles diffèrent beaucoup. Divisez l'espace tridimensionnel en grilles rectangulaires. Utilisez-les comme 30 bacs dimensionnels. Comptez le nombre de vecteurs tombant dans chaque bac et appliquez un test du chi carré pour voir si les distributions se ressemblent. Le problème avec cette suggestion est qu'elle nécessite une sélection judicieuse des bacs afin de couvrir les points de données de manière appropriée. De plus, la malédiction de la dimensionnalité rend difficile l'identification des différences entre les distributions multivariées sans avoir un très grand nombre de points dans chaque groupe. Je pense que les suggestions faites par gui11aume sont raisonnables. Je ne pense pas que les autres le soient. Étant donné que la comparaison des distributions n'est pas possible en 30 dimensions avec un échantillon typique, une forme de comparaison valide des vecteurs moyens me semble appropriée.


1
Salut michael. Pourriez-vous clarifier ce que vous proposez concernant le binning? Il semble que vous proposiez de regrouper chaque dimension séparément, puis de les classer dans des bacs. Mais disons que nous avons deux bacs par dimension, c'est230>dix9bacs. Cela ne ressemble pas à un bon candidat pour unχ2tester. Alors, que faites - vous dire?
cardinal

également, selon votre suggestion, la façon dont le regroupement doit être effectué n'est pas claire: chaque regroupement devrait-il avoir le même nombre de cas, la même plage, la même plage de journaux, etc.?
Boris Gorelik

@cardinal Non, ce que j'ai dit était de construire 30 bacs rectangulaires dimensionnels. Je fais le test chi carré habituel pour comparer deux distributions.
Michael R. Chernick

2
Après avoir réfléchi davantage, je pense que ma recommandation ne fonctionnerait pas dans les dimensions élevées car (1) bien qu'un choix judicieux de bacs soit pratique en 1, 2 et éventuellement 3 dimensions, il ne me semble pas que l'identification de tels bacs en 30 dimensions pourrait être fait (2) en raison de la malédiction de la dimensionnalité même si une telle sélection pouvait être réalisée des points en 30 dimensions réparties de telle manière qu'il serait difficile de détecter des différences entre les distributions sans un très grand nombre de points. Le cardinal fait donc de bons arguments.
Michael R. Chernick

1
J'aurais dû être plus précis; par "application naïve", je voulais dire qu'on ne peut pas simplement appliquer immédiatement le test standard. À tout le moins, un certain ajustement des degrés de liberté doit être effectué, bien que parfois déterminer ce que devraient être les degrés de liberté ne soit pas tout à fait simple.
cardinal
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.