Je pense que c'est une très bonne question. il va au cœur du «problème» controversé des tests multiples qui envahit des domaines allant de l'épidémiologie à l'économétrie. Après tout, comment pouvons- nous savoir si la signification que nous trouvons est fallacieuse ou non? Quelle est la véracité de notre modèle multivariable?
En ce qui concerne les approches techniques visant à compenser la probabilité de publication de variables de bruit, je suis tout à fait d’accord avec le mot «whuber» selon lequel l’utilisation d’une partie de votre échantillon comme données d’entraînement et le reste comme données de test est une bonne idée. C'est une approche qui est discutée dans la littérature technique. Si vous prenez le temps, vous pourrez probablement trouver de bonnes directives pour savoir quand et comment l'utiliser.
Mais pour attaquer plus directement la philosophie des tests multiples, je vous suggère de lire les articles que je mentionne ci-dessous, dont certains soutiennent la position selon laquelle l'ajustement pour tests multiples est souvent préjudiciable (coûts en puissance), inutile, et peut même être une erreur logique. . Pour ma part, je n'accepte pas automatiquement l'affirmation selon laquelle notre capacité à enquêter sur un prédicteur potentiel est inexorablement réduite par celle d'un autre. Le taux d'erreur de type 1 au niveau familial peut augmenter si nous incluons plus de prédicteurs dans un modèle donné, mais tant que nous n'allons pas au-delà des limites de la taille de notre échantillon, la probabilité d'erreur de type 1 pour chaque individule prédicteur est constant; et le contrôle de l'erreur familiale n'indique pas quelle variable spécifique est le bruit et quelle variable. Bien sûr, il existe également des arguments contradictoires convaincants.
Ainsi, tant que vous limitez votre liste de variables potentielles à celles qui sont plausibles (c’est-à-dire que vous auriez des voies menant au résultat), le risque de contrefaçon est déjà assez bien géré.
Cependant, j'ajouterais qu'un modèle prédictif n'est pas aussi concerné par la "valeur de vérité" de ses prédicteurs qu'un modèle causal ; il peut y avoir beaucoup de confusion dans le modèle, mais tant que nous expliquons une grande partie de la variance, nous ne sommes pas trop inquiets. Cela facilite le travail, du moins dans un sens.
À votre santé,
Brenden, consultant en biostatistique
PS: vous voudrez peut-être faire une régression de Poisson gonflée à zéro pour les données que vous décrivez, au lieu de deux régressions distinctes.
- Perneger, TV: Qu'est-ce qui ne va pas avec les ajustements Bonferroni ? BMJ 1998; 316: 1236
- Cook, RJ & Farewell, VT Prise en compte de la multiplicité dans la conception et l'analyse d'essais cliniques . Journal de la Société royale de statistique , série A 1996; Vol. 159, n ° 1: 93-110
- Rothman, KJ Aucun ajustement n'est nécessaire pour les comparaisons multiples . Épidémiologie 1990; Vol. 1, n ° 1: 43-46
- Marshall, JR Données de dragage et de notoriété . Épidémiologie 1990; Vol. 1, n ° 1: 5-7
- Groenland, S. & Robins, JM Des ajustements pour des comparaisons multiples sont parfois utiles . Épidémiologie 1991; Vol. 2, n ° 4: 244-251