Sur la figure 40000
Les nouvelles sont vraiment sensationnalistes, mais le journal est vraiment bien fondé. Les discussions ont duré des jours dans mon laboratoire, somme toute une critique vraiment nécessaire qui fait que les chercheurs introspectent leurs travaux. Je recommande la lecture du commentaire suivant de Thomas Nichols , l'un des auteurs du document "Échec de grappe: Pourquoi les inférences IRMf pour l'étendue spatiale ont gonflé les taux de faux positifs" (désolé pour la longue citation).
Cependant, je regrette un chiffre: 40 000. En essayant de faire référence à l'importance de la discipline IRMf, nous avons utilisé une estimation de l'ensemble de la littérature en IRMf comme nombre d'études affectées par nos résultats. Dans notre défense, nous avons constaté des problèmes d'inférence de taille de grappe en général (sévère pour P = 0,01 CDT, biaisé pour P = 0,001), la méthode de l'inférence dominante, suggérant que la majorité de la littérature était affectée. Le chiffre indiqué dans la déclaration d’impact a toutefois été repris par la presse populaire et alimenté par un petit orage. Par conséquent, j'estime qu'il est de mon devoir de faire au moins une estimation approximative de «Combien d'articles notre travail affecte-t-il?». Je ne suis pas un bibliométricien, et c'est vraiment un exercice difficile, mais cela donne, espérons-le, une idée de l'ordre de grandeur du problème.
Le code d'analyse (dans Matlab) est présenté ci-dessous, mais voici le maigre: Sur la base de calculs probabilistes raisonnables, mais peut-être fragiles, de la littérature, j'estime qu'environ 15 000 articles utilisent l'inférence de taille de grappe avec correction pour des tests multiples; sur ce nombre, environ 3 500 utilisent un TDC de P = 0,01. 3 500 représente environ 9% de l'ensemble de la littérature, ou peut-être plus utilement 11% des articles contenant des données originales. (Bien sûr, certaines de ces 15 000 ou 3 500 personnes pourraient utiliser une inférence non paramétrique, mais c'est malheureusement rare pour l'IRMf. En revanche, il s'agit de l'outil d'inférence par défaut pour les analyses VBM / DTI structurelles en FLS).
Franchement, je pensais que ce nombre serait plus élevé, mais je ne réalisais pas la grande proportion d’études n’ayant jamais utilisé de correction de plusieurs tests. (Vous ne pouvez pas avoir gonflé les significations corrigées si vous ne corrigez pas!) . Ces calculs suggèrent que 13 000 articles n’ont utilisé aucune correction pour plusieurs tests. Bien sûr, certaines d’entre elles utilisent peut-être des régions d’intérêt ou des analyses de sous-volumes, mais il n’ya que très peu de résultats (c’est-à-dire de résultats d’essais cliniques) qui n’ont absolument aucune multiplicité. Notre article ne concerne pas directement ce groupe, mais pour les publications utilisant la correction de test multiple traditionnelle, P <0,001 & k> 10, notre article indique que cette approche présente des taux d'erreur familiaux bien supérieurs à 50%.
Alors, est-ce que nous disons que 3 500 papiers sont «faux»? Ça dépend. Nos résultats suggèrent que les résultats de la CDT P = 0,01 ont gonflé les valeurs de p, mais chaque étude doit être examinée… si les effets sont vraiment forts, peu importe si les valeurs de p sont biaisées et l'inférence scientifique restera inchangée. Mais si les effets sont vraiment faibles, les résultats pourraient en effet être compatibles avec le bruit . Et que dire de ces 13 000 articles sans correction, particulièrement répandus dans la littérature antérieure? Non, ils ne devraient pas non plus être jetés de côté, mais un œil particulièrement blasé est nécessaire pour ces travaux, en particulier lorsque vous les comparez à de nouvelles références avec des normes méthodologiques améliorées.
Il inclut également ce tableau à la fin:
AFNI BV FSL SPM OTHERS
____ __ ___ ___ ______
>.01 9 5 9 8 4
.01 9 4 44 20 3
.005 24 6 1 48 3
.001 13 20 11 206 5
<.001 2 5 3 16 2
Fondamentalement, SPM (Statistical Parametric Mapping, une boîte à outils pour Matlab) est l’outil le plus largement utilisé pour les études de neuroscience IRMf. Si vous vérifiez le papier, vous constaterez que l'utilisation d'un CDT de P = 0.001 (standard) pour les clusters dans SPM donne presque le taux d'erreur attendu par famille.
Les auteurs ont même rempli un errata en raison de la formulation de l'article:
Compte tenu de la mauvaise interprétation répandue de notre article, Eklund et al., Cluster Failure: Pourquoi les inférences IRMf pour l'étendue spatiale ont gonflé les taux de faux positifs, nous avons déposé un errata auprès du bureau de la rédaction de PNAS:
Errata pour Eklund et al., Échec de cluster: Pourquoi les inférences IRMf pour l'étendue spatiale ont gonflé les taux de faux positifs. Eklund, Anders; Nichols, Thomas E; Knutsson, Hans
Deux phrases étaient mal formulées et pourraient facilement être interprétées comme une surestimation de nos résultats.
La dernière phrase de l'énoncé d'importance devrait se lire comme suit: «Ces résultats mettent en doute la validité d'un certain nombre d'études IRMf et pourraient avoir un impact important sur l'interprétation des résultats de neuroimagerie faiblement significatifs.»
La première phrase après le titre «L’avenir de l’IRMf» aurait dû se lire: «En raison des pratiques déplorables d’archivage et de partage des données, il est peu probable que des analyses problématiques puissent être refaites».
Celles-ci remplacent les deux phrases qui impliquaient à tort que nos travaux affectaient les 40 000 publications (voir la section Bibliométrie de Cluster Inference pour obtenir un aperçu de la quantité de documentation pouvant être affectée).
Après avoir initialement refusé l'errata, au motif qu'il corrigeait l'interprétation et non les faits, PNAS a accepté de le publier tel que nous l'avons présenté ci-dessus.
Sur le soi-disant Bug
Certaines nouvelles ont également mentionné un bug comme étant la cause de l'invalidité des études. En effet, l' un des outils AFNI corrigeait les inférences , ce qui a été résolu après la publication de la pré-impression dans arXiv .
Inférence statistique utilisée en neuroimagerie fonctionnelle
≈ 5 %
En utilisant un modèle linéaire généralisé (GLM), vous identifiez les séries temporelles de signaux voxels corrélées au design du paradigme de votre expérience (généralement une série temporelle booléenne compliquée par une fonction de réponse hémodynamique canonique, mais des variations existent).
Donc, ce GLM vous a donné à quel point chaque série chronologique de voxels ressemble à la tâche. Maintenant, supposons que vous ayez deux groupes d'individus: les patients et les contrôles habituellement. La comparaison des scores GLM entre les groupes pourrait être utilisée pour montrer comment la condition des groupes module leur schéma "d'activation" cérébrale.
Il est possible de comparer les groupes entre eux, mais en raison de la fonction de répartition par points inhérente à l'équipement et d'une étape de pré-traitement de lissage, il n'est pas raisonnable de s'attendre à ce que les voxels contiennent individuellement toutes les informations. La différence de voxels entre les groupes devrait en fait être répartie sur les voxels voisins.
Ainsi, une comparaison par groupe est effectuée, c'est-à-dire que seules les différences entre les groupes qui forment des groupes sont prises en compte. Ce seuillage est la technique de correction par comparaison multiple la plus populaire dans les études IRMf. Le problème réside ici.
SPM et FSL dépendent de la théorie des champs aléatoires (RFT) gaussienne pour l'inférence VWE corrigée Fox / cluster par FWE. Cependant, l'inférence RFT par cluster dépend de deux hypothèses supplémentaires. La première hypothèse est que la régularité spatiale du signal IRMf est constante sur le cerveau et la seconde hypothèse est que la fonction d'autocorrélation spatiale a une forme spécifique (une exponentielle au carré) (30).
Au moins dans SPM, vous devez définir un taux nominal FWE ainsi qu'un seuil de définition de cluster (CDT). Fondamentalement, SPM trouve les voxels fortement corrélés à la tâche et, après seuillage avec le CDT, les voisins sont agrégés en clusters. Ces tailles de grappes sont comparées à l'étendue de grappes attendue à partir de la théorie des champs aléatoires (RFT) étant donné l'ensemble FWER [ 1 ].
La théorie des champs aléatoires exige que la carte d'activité soit lisse, soit une bonne approximation de réseau par rapport aux champs aléatoires. Cela est lié à la quantité de lissage appliquée aux volumes. Le lissage affecte également l'hypothèse selon laquelle les résidus sont normalement distribués, car le lissage, selon le théorème de la limite centrale, rendra les données plus gaussiennes.
Les auteurs ont montré dans [ 1 ] que les tailles de cluster attendues de RFT sont vraiment petites si on les compare aux seuils d’extension de cluster obtenus à partir de tests de permutation aléatoire (RPT).
α = 0,05
@amoeba a soulevé ces deux questions très pertinentes dans les commentaires:
(1) Le Eklund et al. Le papier de PNAS parle du "niveau nominal de 5%" de tous les tests (voir par exemple une ligne noire horizontale sur la figure 1). Cependant, la CDT dans la même figure varie et peut être par exemple 0,01 et 0,001. Quel est le rapport entre le seuil CDT et le taux d'erreur nominal de type I? Je suis confus par cela. (2) Avez-vous vu la réponse de Karl Friston
http://arxiv.org/abs/1606.08199 ? Je l'ai lu, mais je ne suis pas tout à fait sûr de ce qu'ils disent: est-ce que je vois correctement qu'ils sont d'accord avec Eklund et al. mais disons qu'il s'agit d'un problème "bien connu"?
(1) Bonne question. En fait, j’ai passé en revue mes références, voyons si je peux le rendre plus clair maintenant. L'inférence par grappe est basée sur l'étendue des grappes qui se forment après l'application d'un seuil primaire (le CDT, qui est arbitraire ). Dans l' analyse secondaire, un seuil sur le nombre de voxels par cluster est appliqué. Ce seuil est basé sur la distribution attendue des étendues de grappes nulles, qui peuvent être estimées à partir de la théorie (par exemple, RFT), et définit un FWER nominal. Une bonne référence est [ 2 ].
(2) Merci pour cette référence, je ne l'ai pas vue auparavant. Flandin & Friston soutiennent Eklund et al. inférence RFT corroborée car ils ont essentiellement montré que, si l'on respecte ses hypothèses (CDT et lissage), les résultats sont sans biais. Dans cette optique, les nouveaux résultats montrent que différentes pratiques dans la littérature tendent à biaiser l’inférence car elle brise les hypothèses de la RFT.
Sur les comparaisons multiples
Il est également bien connu que de nombreuses études en neuroscience ne permettent pas de nombreuses comparaisons, des estimations allant de 10% à 40% de la littérature. Mais ils ne sont pas pris en compte dans cette affirmation, tout le monde sait que ces papiers ont une validité fragile, voire d’énormes taux de faux positifs.
Sur le dessus de 70%
Les auteurs ont également signalé une procédure produisant une FWER supérieure à 70%. Cette procédure "folk" consiste à appliquer la CDT pour ne conserver que des grappes hautement significatives, puis à appliquer un autre seuil (défini par le nombre de voxels) de grappes choisi arbitrairement. Ceci, parfois appelé "set-inference", a des bases statistiques faibles et peut éventuellement générer les résultats les moins fiables.
Rapports précédents
Les mêmes auteurs avaient déjà signalé des problèmes avec la validité de SPM [ 1 ] sur des analyses individuelles. Il existe également d'autres travaux cités dans ce domaine.
Curieusement, plusieurs rapports d’analyses au niveau des groupes et des individus sur la base de données simulées ont conclu que le seuil de RFT était, en fait, conservateur. Avec les récents progrès de la puissance de traitement, RPT peut être exécuté beaucoup plus facilement sur des données réelles, ce qui montre de grandes différences par rapport à la RFT.
MISE À JOUR: 18 octobre 2017
Un commentaire sur "Cluster Failure" est apparu en juin dernier [ 3 ]. Il Mueller et al. soutiennent que les résultats présentés dans Eklund et al. pourraient être dus à une technique de prétraitement d’imagerie spécifique utilisée dans leur étude. Ils ont ré-échantillonné les images fonctionnelles avec une résolution plus élevée avant le lissage (bien que ce ne soit probablement pas le cas de tous les chercheurs, il s'agit d'une procédure de routine dans la plupart des logiciels d'analyse IRMf). Ils notent également que Flandin & Friston ne l'ont pas fait. J'ai eu la chance de voir Eklund parler le même mois lors de la réunion annuelle de l'Organisation pour la cartographie du cerveau humain (OHBM) à Vancouver, mais je ne me souviens d'aucun commentaire sur cette question, pourtant cela semble crucial pour la question.
[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M. et Knutsson, H. (2012). L'analyse IRMf paramétrique avec SPM donne-t-elle des résultats valables? —Etude empirique de 1484 bases de données sur le repos. NeuroImage, 61 (3), 565-578.
[2] Woo, CW, Krishnan, A. et Wager, TD (2014). Le seuillage basé sur l'étendue des grappes dans les analyses IRMf: pièges et recommandations. Neuroimage, 91, 412-419.
[3] Mueller, K., Lepsien, J., Möller, HE et Lohmann, G. (2017). Commentaire: Échec du cluster: Pourquoi les inférences IRMf pour l'étendue spatiale ont gonflé les taux de faux positifs. Frontiers in Neuroscience Human, 11.