Cela me rappelle le diagnostic du cancer, où les anciennes signatures d'expression génique sont remplacées par des signatures plus récentes, qui sont bien sûr censées être meilleures. Mais comment montrer qu'ils sont meilleurs?
Voici quelques suggestions pour comparer la répétabilité des méthodes.
1. Utilisez l'analyse de co-inertie (CIA).
La CIA devrait être plus annoncée, malheureusement elle n'est pas largement utilisée (pas de page Wikipedia par exemple). CIA est une méthode à deux tables qui fonctionne sur le même principe que l' analyse canonique (CA), qui consiste à rechercher une paire de scores linéaires avec une corrélation maximale entre deux ensembles de mesures multidimensionnelles. Son avantage par rapport à CA est que vous pouvez le faire même si vous avez plus de dimensions que d'observations. Vous pouvez mesurer les deux méthodes sur les mêmes échantillons pour obtenir deux tableaux couplés de 30 colonnes etnobservations. La première paire de composants principaux doit être fortement corrélée (si les méthodes mesurent vraiment la même chose). Si la méthode B est meilleure, la variance résiduelle doit être inférieure à la variance résiduelle de la méthode A. Avec cette approche, vous abordez à la fois l'accord des méthodes et leur désaccord, que vous interprétez comme du bruit.
2. Utilisez une distance .
Vous pouvez utiliser la distance euclidienne en 30 dimensions entre le test et le retest pour mesurer la répétabilité d'une méthode. Vous générez un échantillon de ce score pour chaque méthode et vous pouvez comparer les échantillons avec le test de Wilcoxon.
3. Utilisez l'application en aval.
Vous obtenez probablement ces empreintes digitales pour prendre une décision ou classer des patients ou du matériel biologique. Vous pouvez compter les accords vs désaccords entre les tests et les retests pour les deux méthodes et les comparer avec le test de Wilcoxon.
La méthode 3 est la plus simple, mais aussi la plus terre à terre. Même pour les entrées de grande dimension, les décisions sont généralement assez simples. Et aussi complexe que soit notre problème, gardez à l'esprit que la statistique est la science de la décision.
Concernant la question dans votre commentaire.
Qu'en est-il de l'utilisation d'une méthode de réduction de dimensionnalité robuste pour réduire les données multivariées à une seule dimension et de les analyser?
La réduction de la dimensionnalité, aussi robuste soit-elle, sera associée à une perte de variance. S'il existe un moyen de transformer votre empreinte digitale multivariée en un seul score capturant presque toute sa variance, alors bien sûr, c'est de loin la meilleure chose à faire. Mais alors pourquoi l'empreinte digitale est-elle multivariée en premier lieu?
J'ai supposé à partir du contexte de l'OP que l'empreinte digitale est multivariée précisément parce qu'il est difficile de réduire davantage sa dimensionnalité sans perdre d'informations. Dans ce cas, leur répétabilité sur un seul score ne doit pas être un bon indicateur de la répétabilité globale, car vous pouvez négliger la majorité de la variance (proche de 29/30 dans le pire des cas).