Vous avez raison. Le problème de multiples comparaisons existe partout, mais, à cause de la façon dont il est généralement enseigné, les gens pensent que ce qui a trait à la comparaison de nombreux groupes les uns contre les autres par un tas de -Tests. En réalité, il existe de nombreux exemples où le problème des comparaisons multiples existe, mais où il ne ressemble pas à beaucoup de comparaisons par paires; par exemple, si vous avez beaucoup de variables continues et que vous vous demandez si certaines sont corrélées, vous aurez un problème de comparaisons multiples (voir ici: Regardez et vous trouverez une corrélation ). t
Un autre exemple est celui que vous soulevez. Si vous deviez exécuter une régression multiple avec 20 variables et que vous utilisiez comme seuil, vous vous attendriez à ce qu'une de vos variables soit "significative" par hasard, même si toutes les valeurs nulles étaient vraies. Le problème des comparaisons multiples vient simplement des mathématiques de l'exécution de nombreuses analyses. Si toutes les hypothèses nulles étaient vraies et que les variables étaient parfaitement non corrélées, la probabilité de ne pas rejeter faussement tout vrai nul serait de (par exemple, avec , c'est ). α=.051 - ( 1 - α ) p p = 5 .231−(1−α)pp=5.23
La première stratégie pour y remédier consiste à effectuer un test simultané de votre modèle. Si vous ajustez une régression OLS, la plupart des logiciels vous donneront un test global comme partie par défaut de votre sortie. Si vous exécutez un modèle linéaire généralisé, la plupart des logiciels vous fourniront un test de rapport de vraisemblance global analogue. Ce test vous donnera une certaine protection contre l'inflation d'erreur de type I en raison du problème des comparaisons multiples (cf., ma réponse ici: Signification des coefficients en régression linéaire: test t significatif vs statistique F non significative ). Un cas similaire se produit lorsque vous avez une variable catégorielle représentée avec plusieurs codes fictifs; vous ne voudriez pas interpréter cesFtt-tests, mais supprimerait tous les codes fictifs et effectuerait un test de modèle imbriqué à la place.
Une autre stratégie possible consiste à utiliser une procédure d'ajustement alpha, comme la correction de Bonferroni. Vous devez savoir que cela réduira votre puissance ainsi que votre taux d'erreur de type I en famille. Que ce compromis en vaille la peine est un jugement que vous devez faire. (FWIW, je n'utilise généralement pas de corrections alpha dans la régression multiple.)
Concernant la question de l'utilisation des valeurs de pour faire la sélection du modèle, je pense que c'est une très mauvaise idée. Je ne passerais pas d'un modèle à 5 variables à un avec seulement 2 parce que les autres étaient «non significatifs». Lorsque les gens font cela, ils biaisent leur modèle. Cela peut vous aider à lire ma réponse ici: des algorithmes de sélection automatique de modèle pour mieux comprendre cela. p
Concernant votre mise à jour, je ne vous suggérerais pas d'évaluer d'abord les corrélations univariées afin de décider quelles variables utiliser dans le modèle de régression multiple final. Cela entraînera des problèmes d'endogénéité à moins que les variables ne soient parfaitement corrélées entre elles. J'ai discuté de ce problème dans ma réponse ici: Estimation de au lieu deb1x1+b2x2b1x1+b2x2+b3x3 .
En ce qui concerne la façon de gérer les analyses avec différentes variables dépendantes, si vous souhaitez utiliser une sorte d'ajustement est basé sur la façon dont vous voyez les analyses les unes par rapport aux autres. L'idée traditionnelle est de déterminer si elles sont réellement considérées comme une «famille». Ceci est discuté ici: Quelle pourrait être une définition claire et pratique d'une "famille d'hypothèses"? Vous pouvez également vouloir lire ce fil: Méthodes pour prédire plusieurs variables dépendantes .