Laquelle est l'hypothèse nulle? Conflit entre théorie scientifique, logique et statistique?


20

J'ai de la difficulté à comprendre la logique sous-jacente pour définir l' hypothèse nulle . Dans cette réponse, la proposition évidemment généralement acceptée est affirmée que l'hypothèse nulle est l'hypothèse qu'il n'y aura aucun effet, tout reste le même, c'est-à-dire rien de nouveau sous le soleil, pour ainsi dire.

L'hypothèse alternative est alors ce que vous essayez de prouver, par exemple qu'un nouveau médicament tient ses promesses.

Maintenant que nous formons la théorie scientifique et la logique générale, nous savons que nous ne pouvons que falsifier des propositions, nous ne pouvons pas prouver quelque chose (aucun nombre de cygnes blancs ne peut prouver que tous les cygnes sont blancs mais un cygne noir peut le réfuter). C'est pourquoi nous essayons de réfuter l'hypothèse nulle, ce qui n'est pas équivalent à prouver l'hypothèse alternative - et c'est là que commence mon scepticisme - je vais donner un exemple simple:

Disons que je veux savoir quel genre d'animal se cache derrière un rideau. Malheureusement je ne peux pas observer directement l'animal mais j'ai un test qui me donne le nombre de pattes de cet animal. Maintenant, j'ai le raisonnement logique suivant:

Si l'animal est un chien, il aura 4 pattes.

Si je fais le test et que je découvre qu'il a 4 pattes, cela ne prouve pas qu'il s'agit d'un chien (il peut s'agir d'un cheval, d'un rhinocéros ou de tout autre animal à 4 pattes). Mais si je découvre qu'il n'a pas 4 pattes c'est une preuve certaine qu'il ne peut pas s'agir d'un chien (en supposant un animal en bonne santé).

Traduit en efficacité médicamenteuse, je veux savoir si le médicament derrière le rideau est efficace. La seule chose que j'obtiendrai est un nombre qui me donne l'effet. Si l'effet est positif, rien n'est prouvé (4 pattes). S'il n'y a aucun effet, je réfute l'efficacité du médicament.

Dire tout cela, je pense - contrairement à la sagesse commune - la seule hypothèse nulle valide doit être

Le médicament est efficace (c'est-à-dire: si le médicament est efficace, vous verrez un effet).

parce que c'est la seule chose que je peux réfuter - jusqu'au prochain tour où j'essaie d'être plus précis et ainsi de suite. C'est donc l'hypothèse nulle qui énonce l'effet et l'hypothèse alternative est la valeur par défaut ( aucun effet ).

Pourquoi les tests statistiques semblent-ils l'avoir à l'envers?

PS : Vous ne pouvez pas nier même l'hypothèse ci - dessus pour obtenir une hypothèse équivalente valide, de sorte que vous ne pouvez pas dire « Le médicament est pas efficace » comme hypothèse nulle parce que la seule logique forme équivalente serait « si vous voyez pas d' effet le médicament ne sera efficace "qui ne vous mène nulle part car maintenant la conclusion est ce que vous voulez savoir!

PPS : Juste pour clarifier après avoir lu les réponses jusqu'à présent: si vous acceptez la théorie scientifique, que vous ne pouvez que falsifier des déclarations mais pas les prouver, la seule chose qui est logiquement cohérente est de choisir l'hypothèse nulle comme nouvelle théorie - qui peut alors être falsifié. Parce que si vous falsifiez le statu quo, vous êtes les mains vides (le statu quo est réfuté mais la nouvelle théorie est loin d'être prouvée!). Et si vous ne le falsifiez pas, vous n'êtes pas mieux placé non plus.


3
Indice: "Le médicament est efficace" n'a pas été suffisamment quantifié pour être une déclaration scientifique ou statistique. Comment allez-vous le rendre quantitatif?
whuber

1
@whuber: C'est le moindre de mes problèmes: disons simplement que, par exemple, le trésor du sang est réduit de 10%. Je soutiens que cela doit être l'hypothèse nulle - l'hypothèse alternative est "Rien ne se passe".
vonjd

9
Au contraire, c'est le nœud de la question. C'est parfaitement bien dans les statistiques de poser un zéro qui dit que l'effet est de -10%. Votre expérience pourra la rejeter si elle produit des preuves suffisamment solides du contraire. Notez cependant que (sauf extraordinaires machinations informatiques et conceptuelles), vous ne pouvez tester qu'une seule hypothèse de ce type par expérience. Notez également que c'est l'expérimentateur rare qui sait si précisément quelle sera la taille de l'effet (mais qui ressent toujours le besoin de le tester!).
whuber

3
Eh bien, dans la pratique avec les essais de médicaments, la valeur nulle est généralement interprétée comme «le médicament n'est pas plus efficace que le traitement actuel» et l'alternative est «le médicament est plus efficace que le traitement actuel». Incidemment, cela a une taille d'effet intégrée. Avec cette formulation, les preuves de l'efficacité du médicament peuvent rejeter la valeur nulle. Lors de l'échange des hypothèses, les preuves de l'efficacité découragent simplement de rejeter l'affirmation selon laquelle le médicament est bon. Dans le premier cas, la charge de la preuve est beaucoup plus stricte.
whuber

1
@vonjd: Vous dites: "si vous falsifiez le statu quo, vous vous retrouvez les mains vides". Faux. Si nous faisions des jugements qualitatifs «chien» / «pas chien», il est vrai que fournir des preuves «pas chien» n'est pas une preuve particulièrement solide pour «chien». Cependant, c'est la valeur de quantifier les choses. Si je fournis une preuve de «non 0», cela fournit une bonne preuve que la valeur est différente de 0. Si vous êtes préoccupé par la fourniture d'une preuve égale pour un bon effet et un mauvais effet, utilisez un test unilatéral.
russellpierce

Réponses:


12

Dans les statistiques, il existe des tests d'équivalence ainsi que le test le plus commun du Null et décider si des preuves suffisantes contre elle. Le test d'équivalence retourne cela sur sa tête et postule que les effets sont différents du Null et nous déterminons s'il y a suffisamment de preuves contre ce Null.

Je ne suis pas clair sur votre exemple de drogue. Si la réponse est une valeur / un indicateur de l'effet, un effet de 0 indiquerait non efficace. On pourrait définir cela comme Null et évaluer les preuves par rapport à cela. Si l'effet est suffisamment différent de zéro, nous conclurions que l'hypothèse de non-efficacité n'est pas cohérente avec les données. Un test bilatéral compterait des valeurs d'effet suffisamment négatives comme preuve contre le Null. Un test unilatéral, l'effet est positif et suffisamment différent de zéro, pourrait être un test plus intéressant.

Si vous voulez tester si l'effet est 0, alors nous aurions besoin de retourner cela et d'utiliser un test d'équivalence où H0 est l'effet n'est pas égal à zéro, et l'alternative est que H1 = l'effet = 0. Cela évaluerait les preuves par rapport à l'idée que l'effet était différent de 0.


9
Une partie du problème ici est que, IIRC, la raison pour laquelle nous sélectionnons le non-effet comme le Null est parce que le paramètre de cet effet est connu, il l'est 0. Si vous voulez inverser la tendance et avoir un effet non nul comme Null, alors nous aurions besoin de savoir à l'avance quelle était la valeur de ce paramètre pour l'ensemble de la population, et si nous connaissions la valeur du paramètre pour le population, il ne serait pas utile de tester.
Rétablir Monica - G. Simpson

Eh bien, il semble que nous aurons le même problème avec l'hypothèse alternative (nous ne connaissons pas non plus le paramètre). Ma question est donc la suivante: pourquoi ne pas échanger les deux? Cela semble logiquement plus cohérent.
vonjd

Je laisserai les autres commenter les tests d'équivalence. Ce n'est pas la même chose que d'échanger les hypothèses dans des tests standard, mais je ne connais pas très bien ces idées. Je ne pense pas que vous ayez raison de dire que les tests d'équivalence souffrent du problème que je mentionne dans les commentaires. Ils sont formulés d'un point de vue théorique très différent.
Reinstate Monica - G. Simpson

5

Je pense que c'est un autre cas où les statistiques fréquentistes ne peuvent pas donner une réponse directe à la question que vous voulez réellement poser, et répond donc à une question (non si) subtilement différente, et il est facile de mal interpréter cela comme une réponse directe à la question que vous vouliez réellement poser.

Ce que nous aimerions vraiment demander, c'est normalement quelle est la probabilité que l'hypothèse alternative soit vraie (ou peut-être combien plus probable est-elle vraie que l'hypothèse nulle). Cependant, une analyse fréquentiste ne peut fondamentalement pas répondre à cette question, car pour un fréquentiste une probabilité est une fréquence à long terme, et dans ce cas, nous nous intéressons à la vérité d'une hypothèse particulière, qui n'a pas de fréquence à long terme - c'est soit vrai ou non. Un bayésien, d'autre part, peut répondre directement à cette question, car pour un bayésien, une probabilité est une mesure de la plausibilité d'une proposition, il est donc parfaitement raisonnable dans une analyse bayésienne d'attribuer une probabilité à la vérité d'une hypothèse particulière.

La façon dont les fréquentistes traitent des événements particuliers est de les traiter comme un échantillon d'une population (éventuellement fictive) et de faire une déclaration sur cette population à la place d'une déclaration sur l'échantillon particulier. Par exemple, si vous voulez connaître la probabilité qu'une pièce particulière soit biaisée, après avoir observé N flips et observé h têtes et queues, une analyse fréquentiste ne peut pas répondre à cette question, mais elle pourrait vous dire la proportion de pièces provenant d'une distribution de pièces non biaisées qui donneraient h ou plusieurs têtes lorsqu'elles sont retournées N fois. Étant donné que la définition naturelle d'une probabilité que nous utilisons dans la vie de tous les jours est généralement bayésienne plutôt que fréquentiste, il est trop facile de traiter cela comme la probabilité que l'hypothèse nulle (la pièce n'est pas biaisée) soit vraie.

Les tests d'hypothèse essentiellement fréquentistes ont une composante subjectiviste bayésienne implicite qui se cache en son cœur. Le test fréquentiste peut vous dire la probabilité d'observer une statistique au moins aussi extrême sous l'hypothèse nulle, mais la décision de rejeter l'hypothèse nulle pour ces motifs est entièrement subjective, il n'y a aucune exigence rationnelle pour vous de le faire. L'expérience essentielle a montré que nous sommes généralement sur un terrain raisonnablement solide pour rejeter le nul si la valeur de p est suffisamment faible (là encore le seuil est subjectif), c'est donc la tradition. AFAICS ça ne rentre pas bien dans la philosophie ou la théorie des sciences, c'est essentiellement une heuristique.

Cela ne signifie pas pour autant que ce soit une mauvaise chose, malgré ses imperfections, les tests d'hypothèses fréquentistes constituent un obstacle que nos recherches doivent surmonter, ce qui nous aide en tant que scientifiques à garder notre auto-scepticisme et à ne pas nous laisser emporter par l'enthousiasme pour nos théories. Donc, bien que je sois un bayésien dans l'âme, j'utilise toujours régulièrement des tests d'hypothèse des fréquents (au moins jusqu'à ce que les critiques de journaux soient à l'aise avec les alternatives bayésiennes).


3

Pour ajouter à la réponse de Gavin, deux ou trois choses:

Tout d'abord, j'ai entendu cette idée que les propositions ne peuvent être falsifiées, mais jamais prouvées. Pourriez-vous publier un lien vers une discussion à ce sujet, car avec notre formulation ici, cela ne semble pas très bien tenir - si X est une proposition, alors non (X) est également une proposition. Si réfuter des propositions est possible, réfuter X revient à prouver non (X), et nous avons prouvé une proposition.

test+

Le médicament est efficace (c'est-à-dire: si le médicament est efficace, vous verrez un effet).

test+test+H0

test+H0test+H0

Ainsi, la différence entre le cas du chien et le cas de l'efficacité réside dans la pertinence de l'inférence de la preuve à la conclusion. Dans le cas des chiens, vous avez observé des preuves qui n'impliquent pas fortement un chien. Mais dans le cas de l'essai clinique, vous avez observé des preuves qui impliquent fortement l'efficacité.


1
Je vous remercie. Si vous acceptez que vous ne pouvez que falsifier des déclarations mais pas les prouver (lien dans une seconde), la seule chose qui est logiquement cohérente est de choisir l'hypothèse nulle comme nouvelle théorie - qui peut ensuite être falsifiée. Si vous falsifiez le statu quo, vous vous retrouvez les mains vides (le statu quo est réfuté mais la nouvelle théorie est loin d'être prouvée!). Maintenant, pour le lien, je pense qu'un bon point de départ serait: en.wikipedia.org/wiki/Falsifiability
vonjd

2
Je pense qu'un point à mentionner ici est que vous ne prouvez pas ou ne réfutez pas l'hypothèse nulle. La décision que vous prenez (classiquement) est de conserver ou de rejeter l'hypothèse nulle. Lorsque vous rejetez l'hypothèse nulle, vous ne la réfutez pas. Tout ce que vous faites, c'est dire que, compte tenu des données observées, l'hypothèse nulle est peu probable.
russellpierce

@drknexus: Eh bien, ne seriez-vous pas d'accord pour dire que c'est l'équivalent probabiliste de la falsification en logique?
vonjd

4
@drknexus Ne serait-il pas plus précis de ne pas dire "étant donné les données observées, l'hypothèse nulle est peu probable" mais plutôt "si l'hypothèse nulle est vraie alors ces données sont peu probables"? N'est-ce pas confondre ces deux-là l'erreur classique dans le test d'hypothèse statistique?
Michael McGowan

1
MM: Tu as raison. Je suis devenu bâclé dans ma formulation.
russellpierce

3

Vous avez raison de dire que, dans un sens, les tests d'hypothèses fréquentistes l'ont fait à l'envers. Je ne dis pas que cette approche est erronée, mais plutôt que les résultats ne sont souvent pas conçus pour répondre aux questions qui intéressent le plus le chercheur. Si vous voulez une technique plus similaire à la méthode scientifique, essayez l'inférence bayésienne .

Au lieu de parler d'une "hypothèse nulle" que vous pouvez rejeter ou ne pas rejeter, avec l'inférence bayésienne, vous commencez avec une distribution de probabilité antérieure basée sur votre compréhension de la situation actuelle. Lorsque vous acquérez de nouvelles preuves, l'inférence bayésienne vous fournit un cadre pour mettre à jour votre croyance avec les preuves prises en compte. Je pense que c'est plus semblable à la façon dont la science fonctionne.


3

Je pense que vous avez ici une erreur fondamentale (pas que tout le domaine du test d'hypothèse soit clair!) Mais vous dites que l'alternative est ce que nous essayons de prouver. Mais ce n'est pas juste. Nous essayons de rejeter (falsifier) ​​le null. Si les résultats que nous obtenons seraient très improbables si le null était vrai, nous rejetons le null.

Maintenant, comme d'autres l'ont dit, ce n'est généralement pas la question que nous voulons poser: nous ne nous soucions généralement pas de la probabilité des résultats si le null est vrai, nous nous soucions de la probabilité du null, étant donné les résultats.



2

Je vais développer la mention de Paul Meehl par @Doc:

1) Tester l'opposé de votre hypothèse de recherche car l'hypothèse nulle fait que vous ne pouvez affirmer que le conséquent qui est un argument "formellement invalide". Les conclusions ne découlent pas nécessairement de la prémisse.

If Bill Gates owns Fort Knox, then he is rich.
Bill Gates is rich.
Therefore, Bill Gates owns Fort Knox.

http://rationalwiki.org/wiki/Affirming_the_consequent

Si la théorie est «ce médicament améliorera la récupération» et que vous observez une meilleure récupération, cela ne signifie pas que vous pouvez dire que votre théorie est vraie. L'apparition d'une meilleure récupération aurait pu se produire pour une autre raison. Aucun groupe de patients ou d'animaux ne sera exactement le même au départ et changera au fil du temps au cours de l'étude. Il s'agit d'un problème plus important pour l'observation que pour la recherche expérimentale car la randomisation «se défend» contre de graves déséquilibres de facteurs de confusion inconnus au départ. Cependant, la randomisation ne résout pas vraiment le problème. Si les confusions sont inconnues, nous n'avons aucun moyen de dire dans quelle mesure la "défense de randomisation" a réussi.

Voir également le tableau 14.1 et la discussion sur les raisons pour lesquelles aucune théorie ne peut être testée seule (il y a toujours des facteurs auxiliaires qui coïncident) dans:

Paul Meehl. « Le problème est Épistémologie, pas de statistiques: Remplacer les tests de signification par Intervalles de confiance et Quantifier Exactitude des prévisions numériques à risque » , dans LL Harlow, SA Mulaik, & JH Steiger (Eds.), Et s'il n'y avait pas les tests de signification? (pp. 393–425) Mahwah, NJ: Erlbaum, 1997.

2) Si un certain type de biais est introduit (par exemple, un déséquilibre sur certains facteurs de confusion), nous ne savons pas dans quelle direction ce biais se situera ni à quel point il est fort. La meilleure supposition que nous pouvons donner est qu'il y a 50% de chances de biaiser le groupe de traitement dans le sens d'une récupération plus élevée. À mesure que la taille des échantillons augmente, il y a également 50% de chances que votre test de signification détecte cette différence et vous interpréterez les données comme corroborant votre théorie.

Cette situation est totalement différente du cas d'une hypothèse nulle selon laquelle "ce médicament améliorera la récupération de x%". Dans ce cas, la présence de tout biais (qui, je dirais, existe toujours en comparant des groupes d'animaux et d'humains) vous rend plus susceptible de rejeter votre théorie.

Pensez à «l'espace» (Meehl l'appelle le «Spielraum») des résultats possibles délimités par les mesures les plus extrêmes possibles. Il peut y avoir une récupération de 0 à 100%, et vous pouvez mesurer avec une résolution de 1%. Dans le cas du test de signification commune, l'espace conforme à votre théorie sera de 99% des résultats possibles que vous pourriez observer. Dans le cas où vous prédisez une différence spécifique, l'espace cohérent avec votre théorie sera de 1% des résultats possibles.

Une autre façon de le dire est que trouver des preuves contre une hypothèse nulle de moyenne1 = moyenne2 n'est pas un test sévère de l'hypothèse de recherche qu'un médicament fait quelque chose. Une valeur nulle de moyenne1 <moyenne2 est meilleure mais toujours pas très bonne.

Voir les figures 3 et 4 ici: (1990). Évaluer et modifier les théories: la stratégie de la défense lacakosienne et deux principes qui justifient son utilisation . Enquête psychologique, 1, 108-141, 173-180


0

Toutes les statistiques ne reposent-elles pas sur l'hypothèse que rien n'est certain dans le monde naturel (par opposition au monde créé par l'homme des jeux et c). En d'autres termes, la seule façon dont nous pouvons nous approcher est de mesurer la probabilité qu'une chose soit en corrélation avec une autre et cela varie entre 0 et 1 mais ne peut être que 1 si nous pouvons tester l'hypothèse un nombre infini de fois dans un nombre infini de circonstances différentes, ce qui bien sûr est impossible. Et nous ne pouvons jamais savoir que c'était zéro pour la même raison. C'est une approche plus fiable pour comprendre la réalité de la nature, que les mathématiques, qui traitent en absolus et reposent principalement sur des équations, que nous savons idéales parce que si, littéralement, le côté gauche d'une équation est vraiment = le côté droit, les deux côtés pourrait être inversé et nous n'apprendrions rien. À strictement parler, il ne s'applique qu'à un monde statique, pas à un monde «naturel» intrinsèquement turbulent. Par conséquent, l'hypothèse nulle devrait même souscrire aux mathématiques - chaque fois qu'elle est utilisée pour comprendre la nature elle-même.


0

Je pense que le problème est dans le mot «vrai». La réalité du monde naturel est intrinsèquement inconnaissable car elle est infiniment complexe et infiniment variable dans le temps, de sorte que la «vérité» appliquée à la nature est toujours conditionnelle. Tout ce que nous pouvons faire, c'est essayer de trouver des niveaux de correspondance probable entre les variables par des expériences répétées. Dans notre tentative de donner un sens à la réalité, nous recherchons ce qui semble être de l'ordre et en construisons des modèles conceptuellement conscients dans notre esprit pour nous aider à prendre des décisions sensées MAIS c'est une affaire de hasard car il y a toujours le inattendu. L'hypothèse nulle est le seul point de départ fiable dans notre tentative de donner un sens à la réalité.


1
Je pense que vous devriez fusionner vos deux réponses.
vonjd

-1

Nous devons sélectionner l'hypothèse nulle celle que nous voulons rejeter.

Parce que dans notre scénario de test d'hypothèse, il y a une région critique, si la région sous hypothèse vient dans la région critique, nous rejetons l'hypothèse sinon nous l'acceptons.

Supposons donc que nous sélectionnions l'hypothèse nulle, celle que nous voulons accepter. Et la région sous hypothèse nulle ne relève pas de la région critique, donc nous accepterons l'hypothèse nulle. Mais le problème ici est que si une région sous hypothèse nulle relève d'une région acceptable, cela ne signifie pas que la région sous hypothèse alternative ne relèvera pas d'une région acceptable. Et si tel est le cas, notre interprétation du résultat sera erronée. Il ne faut donc considérer cette hypothèse que comme une hypothèse nulle que nous voulons rejeter. Si nous sommes en mesure de rejeter l'hypothèse nulle, cela signifie que l'hypothèse alternative est vraie. Mais si nous ne sommes pas en mesure de rejeter l'hypothèse nulle, cela signifie que l'une des deux hypothèses peut être correcte. Peut-être que nous pouvons alors faire un autre test, dans lequel nous pouvons prendre notre hypothèse alternative comme hypothèse nulle, puis nous pouvons essayer de le rejeter. Si nous sommes en mesure de rejeter l'hypothèse alternative (qui est maintenant l'hypothèse nulle.), Alors nous pouvons dire que notre hypothèse nulle initiale était vraie.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.