Tests bilatéraux… Je ne suis tout simplement pas convaincu. À quoi ça sert?

58

L'extrait suivant est tiré de l'entrée Quelles sont les différences entre les tests unilatéraux et bilatéraux? , sur le site d'aide des statistiques de UCLA.

... considérer les conséquences de l'absence d'un effet dans l'autre sens. Imaginez que vous avez développé un nouveau médicament qui, à votre avis, constitue une amélioration par rapport à un médicament existant. Vous souhaitez optimiser votre capacité à détecter l'amélioration, vous optez donc pour un test unilatéral. Ce faisant, vous ne testez pas la possibilité que le nouveau médicament soit moins efficace que le médicament existant.

Après avoir appris les bases absolues des tests d'hypothèses et en arriver à la partie relative aux tests à un ou deux tests ... je comprends les bases du calcul et la capacité de détection accrue des tests à un test à la queue, etc. autour d'une chose ... Quel est le point? Je ne comprends vraiment pas pourquoi vous devriez diviser votre alpha entre les deux extrêmes, alors que votre résultat d'échantillon ne peut se situer que dans l'un ou l'autre, ou dans les deux.

Prenez l'exemple de scénario à partir du texte cité ci-dessus. Comment pourriez-vous éventuellement "ne pas tester" un résultat dans la direction opposée? Vous avez votre échantillon moyen. Vous avez votre population moyenne. Une simple arithmétique vous dit lequel est le plus élevé. Qu'y a-t-il à tester ou à ne pas tester dans la direction opposée? Qu'est-ce qui vous empêche de repartir de zéro avec l'hypothèse inverse si vous voyez clairement que la moyenne de l'échantillon est bien différente dans l'autre sens?

Une autre citation de la même page:

Le choix d'un test unilatéral après l'exécution d'un test bilatéral qui n'a pas permis de rejeter l'hypothèse nulle n'est pas approprié, même si le test bilatéral était "proche" de sa signification.

Je suppose que cela s'applique également à la permutation de la polarité de votre test unilatéral. Mais comment ce résultat "trafiqué" est-il moins valable que si vous aviez simplement choisi le test unilatéral correct en premier lieu?

Clairement, il me manque une grande partie de l'image ici. Tout semble trop arbitraire. Ce qui est, je suppose, en ce sens que ce qui dénote "statistiquement significatif" - 95%, 99%, 99,9% ... est arbitraire pour commencer.

hypothesis-testing statistical-significance inference

— De TheAshes
source

18

Cela me semble être une très bonne question, +1.

— gung - Réintégrer Monica

5

Bien qu'il soit absolument clair que vous devez concevoir votre expérience et vos tests avant de collecter des données, je trouve leur exemple sur les médicaments plutôt intrigant, étant donné que les nouveaux médicaments sont souvent testés avec un test unilatéral sans grand tollé .

— P-Gn

3

@ user1735003 un article ironique à paraître compte tenu du fait que de nombreux essais pharmaceutiques régulant l'humeur / le comportement font l'objet d'une attention croissante pour la partialité des observateurs. Un Cochrane intéressant sur le Ritalin ici . "La prétendue supériorité du placebo" est ce que tout procès qualifierait de "mal", je ne la trouve donc pas inconcevable. Mais dans ces essais, si les études s’arrêtent pour cause de dommages, le signal provient d’effets indésirables.

— AdamO

10

"Vous avez la moyenne de votre échantillon. Vous avez la moyenne de votre population ... Qu'est-ce qui vous empêche de repartir de zéro avec l'hypothèse inverse si vous voyez clairement que la moyenne de l'échantillon est bien différente dans le sens opposé?" . Non, l'objectif des tests d'hypothèse est que vous n'avez pas la moyenne de la population et que vous utilisez la moyenne de l'échantillon pour tester une hypothèse sur la moyenne de la population (l'hypothèse nulle). Donc, il n'y a pas de "voir clairement que la moyenne de l'échantillon est bien différente" , parce que c'est précisément ce que vous testez, pas une donnée.

— StAtS

1

le problème est que souvent vous ne connaissez pas la polarité, vous devez donc exécuter le test à deux queues. imaginez de brancher un voltmètre sur l’alimentation en courant continu lorsque vous ne savez pas quelle fiche est POSITIVE

— Aksakal

45

Pensez aux données comme à la pointe de l'iceberg - tout ce que vous pouvez voir au-dessus de l'eau est la pointe de l'iceberg, mais en réalité, vous souhaitez en savoir plus sur l'iceberg dans son ensemble.

Les statisticiens, les spécialistes des données et les autres personnes travaillant avec des données veillent à ce que ce qu'ils voient au-dessus de la ligne de flottaison n'influence pas et ne biaise pas leur évaluation de ce qui est caché sous la ligne de flottaison. Pour cette raison, dans une situation de test d'hypothèses, ils ont tendance à formuler leurs hypothèses nuls et alternatives avant de voir la partie émergée de l'iceberg, en se basant sur leurs attentes (ou leur absence) de ce qui pourrait arriver s'ils pouvaient voir l'iceberg dans sa totalité. .

Examiner les données pour formuler vos hypothèses est une mauvaise pratique et doit être évitée - c'est comme si vous mettiez la charrue avant les boeufs. Rappelez-vous que les données proviennent d'un seul échantillon sélectionné (en utilisant, espérons-le, un mécanisme de sélection aléatoire) dans la population / l'univers cible. L'échantillon a ses propres particularités, qui peuvent ou non refléter la population sous-jacente. Pourquoi voudriez-vous que vos hypothèses reflètent une tranche étroite de la population plutôt que la population entière?

Une autre façon de penser à cela est que chaque fois que vous sélectionnez un échantillon dans votre population cible (en utilisant un mécanisme de sélection aléatoire), l'échantillon produit des données différentes. Si vous utilisez les données (ce que vous ne devriez pas !!!) pour guider votre spécification des hypothèses nulles et alternatives, vos hypothèses seront omniprésentes sur la carte, essentiellement en fonction des caractéristiques particulières de chaque échantillon. Bien sûr, dans la pratique, nous n’en tirons qu’un échantillon, mais il serait très inquiétant de savoir que si quelqu'un d'autre effectue la même étude avec un échantillon différent de la même taille, il devra changer ses hypothèses pour refléter les réalités de leur échantillon.

Un de mes professeurs de troisième cycle avait l'habitude de dire de façon très sage: "L'échantillon nous importe peu, sauf qu'il nous dit quelque chose sur la population" . Nous voulons formuler nos hypothèses pour en savoir plus sur la population cible, et non sur l'échantillon que nous avons sélectionné pour cette population.

— Isabella Ghement
source

1

@ subhashc.davar: Ce n'est pas parce que vous ne voyez pas la pertinence de ma réponse que quelqu'un d'autre ne le verra pas. S'il vous plaît soyez conscient que les réponses sont pour la communauté entière et pas seulement pour la personne qui a posé la question. Je serais ravi de supprimer ma réponse si cela vous tient à coeur.

— Isabella Ghement

7

@ subhashc.davar Un exemple peut aider: Supposons que vous testiez si une collation affecte les performances. Vous lancez l'expérience et constatez un léger gain de score chez les snackers. Génial! Exécutez un test unilatéral pour voir si les collants> ne collent pas. Problème: qu'auriez-vous fait si vous aviez prélevé un échantillon où les grignotines avaient eu un rendement inférieur? Auriez-vous fait un test unilatéral pour les snackers <non-snackers? Si c'est le cas, vous commettez une erreur et laissez les exemples d'idiosyncracies guider vos tests.

— RM

21

Une anecdote de mon professeur: "Nous avons rendu visite à la fille d'un ami dans une maternité. 20 enfants et 18 sur 20 portaient un chapeau rose. J'ai donc fait ce que n'importe quel statisticien ferait: calculer une valeur p pour le sexe, 50 / 50. C'était très significatif sur le plan statistique. Alors, qui veut écrire ce papier avec moi? Personne? Pourquoi? Vous ne pouvez pas utiliser de données qui ont généré une hypothèse pour tester une hypothèse. "

— AdamO

4

@AdamO J'ai trouvé votre commentaire une meilleure explication que la réponse elle-même. Je reformulerais la dernière phrase en disant: "Vous ne devriez pas utiliser les mêmes données avec lesquelles vous avez généré votre hypothèse pour tester également votre hypothèse.". Une implication connexe est qu’il est bien de changer votre hypothèse en fonction du résultat du test que vous avez choisi précédemment. Mais vous devriez alors tester votre nouvelle hypothèse avec de nouvelles données.

— Kenny Evitt

3

@KennyEvitt oui tout à fait raison. Les découvertes fortuites sont importantes et doivent être signalées, mais elles ne doivent pas être vendues comme des hypothèses préspécifiées.

— AdamO

18

Je pense que lorsque vous examinez votre question, il est utile d’essayer de garder à l’esprit les objectifs de test de signification de l'hypothèse nulle (NHST); c'est juste un paradigme (bien que très populaire) pour l'inférence statistique, et les autres ont aussi leurs propres forces (par exemple, voir ici pour une discussion de NHST par rapport à l'inférence Bayesienne). Quel est le gros avantage de NHST?: Contrôle des erreurs à long terme . Si vous suivez les règles de NHST (et parfois c'est un très gros si), alors vous devriez avoir une bonne idée de la probabilité que vous vous trompiez avec les déductions que vous faites, à long terme.

L’une des règles strictes de NHST est que, sans autre modification de votre procédure de test, vous ne pouvez examiner que votre test d’intérêt. Les chercheurs dans la pratique ignorent souvent (ou ne sont pas au courant) cette règle (voir Simmons et al., 2012), la réalisation de multiples tests après l' ajout d' ondes de données, vérifier leur $p$ - les valeurs après avoir ajouté / retiré des variables à leurs modèles, etc. ils sont parfaitement conscients que les résultats significatifs ont plus de chances d'être publiés que les résultats non significatifs (pour des raisons à la fois erronées et légitimes; Rosenthal, 1979). Les chercheurs sont donc souvent motivés pour ajouter des données / modifier des modèles / sélectionner des valeurs éloignées et les tester à plusieurs reprises jusqu'à ce qu'ils "découvrent" un effet significatif (voir John et al., 2011, une bonne introduction).

Un problème contre - intuitif est créé par les pratiques ci - dessus, décrit bien dans Dienes (2008): si les chercheurs continueront à ajuster leurs échantillons / conception / modèles jusqu'à ce que la signification est atteint, alors les taux souhaités d'erreur à long terme des faux positifs (souvent ) et les résultats faussement négatifs (souvent ) s'approcheront respectivement de 1.0 et 0.0 (c'est-à-dire que vous rejetterez toujours , que ce soit faux ou vrai). $\alpha =.05$ $\beta =.20$ $H_0$

Dans le cadre de vos questions spécifiques, les chercheurs utilisent des tests bilatéraux par défaut lorsqu'ils ne souhaitent pas effectuer de prédictions particulières en ce qui concerne la direction de l'effet. S'ils se trompent et qu'ils effectuent un test unilatéral dans la direction de l'effet, leur long terme sera gonflé. S'ils examinent des statistiques descriptives et effectuent un test unilatéral basé sur leur observation de la tendance, leur long terme sera gonflé. Vous pensez peut-être que ce n'est pas un gros problème, dans la pratique, que les valeurs perdent leur signification à long terme, mais si elles ne la retiennent pas, il faut se demander pourquoi vous utilisez une approche permettant de déduire que donne la priorité au contrôle d'erreur à long terme. $\alpha$ $\alpha$ $p$

Enfin (et par préférence personnelle), j'aurais moins de problème si vous avez d'abord effectué un test bilatéral, l'avez trouvé non significatif, puis effectué le test unilatéral dans la direction implicite du premier test, et l'a trouvé significatif si (et seulement si) vous avez effectué une réplication de confirmation stricte de cet effet dans un autre échantillon et avez publié la réplication dans le même document. L'analyse exploratoire de données - avec une pratique d'analyse flexible qui gonfle le taux d'erreur - est acceptable, tant que vous êtes en mesure de reproduire votre effet dans un nouvel échantillon sans la même flexibilité analytique.

Références

Dienes, Z. (2008). Comprendre la psychologie en tant que science: introduction à l'inférence scientifique et statistique . Palgrave Macmillan.

John, LK, Loewenstein, G., et Prelec, D. (2012). Mesurer la prévalence de pratiques de recherche douteuses avec des incitations à dire la vérité. Science psychologique , 23 (5), 524-532.

Rosenthal, R. (1979). Le problème du tiroir de fichiers et la tolérance pour les résultats nuls. Bulletin psychologique , 86 (3), 638.

Simmons, JP, LD, Nelson et Simonsohn, U. (2011). Psychologie faussement positive: la flexibilité non divulguée dans la collecte et l'analyse des données permet de présenter quelque chose d'important. Science psychologique , 22 (11), 1359-1366.

— Jsakaluk
source

Très belle réponse. M'a aidé à rassembler certaines des préoccupations que j'avais au cours de ma récente recherche dans des documents de recherche (en tant que profane), confirmant apparemment l'idée que les valeurs p unilatérales ne peuvent faire l'objet d'une "confiance" que si vous avez déjà des raisons de vous faire confiance corrélation "étant faux.

— Venryx

10

Malheureusement, l'exemple motivant du développement de médicaments n'est pas un bon exemple, car ce n'est pas ce que nous faisons pour développer des médicaments. Nous utilisons des règles différentes et plus strictes pour arrêter l'étude si les tendances sont du côté du préjudice. Ceci est pour la sécurité des patients et aussi parce que le médicament est peu susceptible de basculer comme par magie dans le sens d'un bénéfice significatif.

Alors, pourquoi faire deux tests à la queue ? (quand dans la plupart des cas nous avons une idée a priori de la direction d'effet possible que nous essayons de modéliser)

L’hypothèse nulle devrait présenter une certaine ressemblance avec la croyance au sens d’être plausible, informée et justifiée. Dans la plupart des cas, les gens s'accordent pour dire qu'un "résultat inintéressant" se produit lorsqu'il y a un effet, alors qu'un effet négatif ou positif présente le même intérêt. Il est très difficile d’énoncer une hypothèse nulle composée, par exemple le cas où nous savons que la statistique pourrait être égale oumoins d'un certain montant. Il faut être très explicite sur une hypothèse nulle pour donner un sens à leurs découvertes scientifiques. Il convient de souligner que la manière dont on effectue un test d'hypothèse composite est que la statistique sous l'hypothèse nulle suppose la valeur la plus cohérente dans la plage des données observées. Donc, si l'effet est positif comme prévu, la valeur nulle est considérée comme égale à 0 de toute façon, et nous avons discuté inutilement.

Un test bilatéral revient à effectuer deux tests unilatéraux avec contrôle pour des comparaisons multiples! Le test à deux queues est en partie valorisé car il finit par être plus conservateur à long terme. Lorsque nous avons une bonne idée de la direction de l’effet, les tests à deux queues produiront deux fois moins de faux positifs, avec un effet global très faible sur la puissance.

Dans le cas de l'évaluation d'un traitement dans le cadre d'un essai contrôlé randomisé, si vous tentiez de me vendre un test unilatéral, je vous empêcherais de demander: «Eh bien, pourquoi devrions-nous croire que le traitement est réellement nocif? Existe-t-il des preuves? Y a-t-il même un équilibre [une capacité à démontrer un effet bénéfique]? " L’incohérence logique du test unilatéral remet en question l’ensemble de la recherche. Si vraiment rien n'est connu, toute valeur autre que 0 est considérée comme intéressante et le test à deux queues n'est pas simplement une bonne idée, c'est nécessaire.

— AdamO
source

8

Une façon de l'aborder est d'oublier temporairement les tests d'hypothèses et de penser plutôt aux intervalles de confiance. Les tests unilatéraux correspondent à des intervalles de confiance unilatéraux et les tests bilatéraux correspondent à des intervalles de confiance bilatéraux.

Supposons que vous souhaitiez estimer la moyenne d'une population. Naturellement, vous prenez un échantillon et calculez une moyenne d'échantillon. Il n'y a aucune raison de prendre une estimation ponctuelle à la valeur nominale, vous exprimez donc votre réponse sous la forme d'un intervalle dont vous êtes raisonnablement sûr qu'il contient la vraie moyenne. Quel type d'intervalle choisissez-vous? Un intervalle bilatéral est de loin le choix le plus naturel. Un intervalle unilatéral n'a de sens que lorsque vous ne vous souciez tout simplement pas de trouver une limite supérieure ou une limite inférieure de votre estimation (car vous pensez déjà connaître une limite utile dans une direction). À quelle fréquence êtes-vous vraiment sûr de la situation?

Passer de la question à des intervalles de confiance n’est peut-être pas vraiment essentiel, mais il est méthodologiquement incohérent de préférer les tests unilatéraux mais les intervalles de confiance bilatéraux.

— John Coleman
source

4

Après avoir appris les bases absolues des tests d'hypothèses et en arriver à la partie relative aux tests à un ou deux tests ... je comprends les bases du calcul et la capacité de détection accrue des tests à un test à la queue, etc. autour d'une chose ... Quel est le point? Je ne comprends vraiment pas pourquoi vous devriez diviser votre alpha entre les deux extrêmes, alors que votre résultat d'échantillon ne peut se situer que dans l'un ou l'autre, ou dans les deux.

Le problème est que vous ne connaissez pas la moyenne de la population. Je n'ai jamais rencontré de scénario du monde réel dont je connais la véritable population.

Prenez l'exemple de scénario à partir du texte cité ci-dessus. Comment pourriez-vous éventuellement "ne pas tester" un résultat dans la direction opposée? Vous avez votre échantillon moyen. Vous avez votre population moyenne. Une simple arithmétique vous dit lequel est le plus élevé. Qu'y a-t-il à tester ou à ne pas tester dans la direction opposée? Qu'est-ce qui vous empêche de repartir de zéro avec l'hypothèse inverse si vous voyez clairement que la moyenne de l'échantillon est bien différente dans l'autre sens?

J'ai lu votre paragraphe plusieurs fois, mais je ne suis toujours pas sûr de vos arguments. Voulez-vous reformuler? Vous ne parvenez pas à "tester" si vos données ne vous atterrissent pas dans les régions critiques de votre choix.

Je suppose que cela s'applique également à la permutation de la polarité de votre test unilatéral. Mais comment ce résultat "trafiqué" est-il moins valable que si vous aviez simplement choisi le test unilatéral correct en premier lieu?

La citation est correcte car le piratage d'une valeur p est inapproprié. Que savons-nous du p-hacking "à l'état sauvage"? a plus de détails.

Clairement, il me manque une grande partie de l'image ici. Tout semble trop arbitraire. Ce qui est, je suppose, en ce sens que ce qui dénote "statistiquement significatif" - 95%, 99%, 99,9% ... est arbitraire pour commencer. Aidez-moi?

C'est arbitraire. C'est pourquoi les scientifiques de données rapportent généralement l'ampleur de la valeur p elle-même (non seulement significative ou insignifiante), ainsi que la taille des effets.

— Petitchess
source

Pour être clair, je n’essaie pas de remettre en question les fondements mêmes de l’inférence statistique. Comme je l'ai dit, je viens tout juste d'apprendre les bases et j'ai du mal à comprendre comment des résultats potentiels pourraient être manqués en n'utilisant pas le bon test.

— FromTheAshes

Dites à votre pote, Joe, invente un nouveau produit qui, selon lui, améliore grandement la croissance des plantes. Intrigué, vous concevez une étude robuste avec un groupe de contrôle et un groupe de traitement. Votre hyp null. est qu'il n'y aura pas de changement dans la croissance, votre alternative hyp. est que le spray magique de Joe augmente considérablement la croissance - donc un test unilatéral. Deux semaines plus tard, vous faites vos observations finales et analysez les résultats. La croissance moyenne du groupe de traitement s'avère être supérieure à 5 erreurs types EN DESSOUS du contrôle. Comment cette découverte très significative est-elle moins évidente ou valable du fait de votre choix de test?

— FromTheAshes

2

Si je vous demande d’appeler des têtes ou des queues pour un tirage au sort, la probabilité que vous prédisez le résultat est de 50/50 (en supposant une pièce équilibrée et un flipper honnête). Cependant, si je lance la pièce en premier et que je vous laisse la regarder et ensuite faire votre prédiction, elle ne sera plus 50/50. Si vous effectuez un test unilatéral avec un niveau alpha de 0,01 mais inversez ensuite la direction du test après avoir vu les résultats, car p <0,01 dans le sens opposé, le risque d'erreur de type I n'est pas long .01 mais beaucoup plus élevé. Notez que la valeur p observée et le taux d'erreur de type I ne sont pas la même chose.

— dbwilson

@FromTheAshes il n'y a rien de mal à essayer de contester les fondements mêmes. Le test d'hypothèse statistique n'est pas inutile, mais il contient des défauts logiques énormes, et il est absolument raisonnable de les contester!

— Flounderer

3

Eh bien, toute différence repose sur la question à laquelle vous voulez répondre. Si la question est: "Un groupe de valeurs est-il plus grand que l'autre?" vous pouvez utiliser un test unilatéral. Pour répondre à la question: "Ces groupes de valeurs sont-ils différents?" vous utilisez le test à deux queues. Prenez en compte le fait qu'un ensemble de données peut être statistiquement plus élevé qu'un autre, mais pas statistiquement différent ... et ce sont des statistiques.

— Ramon L. Zegpi
source

1

'Si la question est: "Un groupe de valeurs est-il plus grand que l'autre?" vous pouvez utiliser un test unilatéral. Plus précisément, si la question est "Est-ce que ce groupe est plus grand que les autres", vous devez utiliser un test bilatéral.

— Accumulation

Il convient de noter que cela sous-entend en quelque sorte que si vous posez cette question, vous pourrez vous dire: "Soit dit en passant, il semble que l' autre groupe soit en réalité plus grand, alors je m'en fiche". Si vous voyiez le contraire de ce à quoi vous vous attendiez et inversiez la direction du test d'hypothèse, vous vous mentiez depuis le début et vous auriez dû faire un test bilatéral pour commencer.

— Dason

2

Mais comment ce résultat "trafiqué" est-il moins valable que si vous aviez simplement choisi le test unilatéral correct en premier lieu?

La valeur alpha est la probabilité que vous rejetiez le null, étant donné que le null est vrai. Supposons que votre valeur NULL est que la moyenne de l'échantillon est normalement distribuée avec une moyenne nulle. Si P (moyenne de l'échantillon> 1 | H0) = 0,05, la règle "Recueillir un échantillon et rejeter la valeur nulle si la moyenne de l'échantillon est supérieure à 1" a une probabilité, étant donné que la valeur nulle est vraie, de 5% de rejeter le null. La règle "Recueillir un échantillon et si la moyenne de l'échantillon est positive, puis rejeter la valeur nulle si la moyenne de l'échantillon est supérieure à 1 et si la moyenne de l'échantillon est négative, rejeter la valeur nulle si la moyenne de l'échantillon est inférieure à 1" a probabilité, étant donné que le null est vrai, de 10% de rejeter le nul. Donc, la première règle a un alpha de 5% et la seconde règle a un alpha de 10%. Si vous commencez avec un test bilatéral, puis changez-le en un test unilatéral basé sur les données, puis vous suivez la deuxième règle. Il serait donc inexact de déclarer votre valeur alpha comme 5%. La valeur alpha dépend non seulement de la nature des données, mais également des règles que vous suivez pour les analyser. Si vous vous demandez pourquoi utiliser une métrique possédant cette propriété plutôt que quelque chose qui ne dépend que des données, la question est plus compliquée.

— Accumulation
source

2

Concernant le 2ème point

Le choix d'un test unilatéral après l'exécution d'un test bilatéral qui n'a pas permis de rejeter l'hypothèse nulle n'est pas approprié, même si le test bilatéral était "proche" de sa signification.

nous avons que, si le null est vrai, le premier test bilatéral rejette faussement avec probabilité , mais le unilatéral peut également rejeter à la deuxième étape. $\alpha$

La probabilité de rejet globale dépassera donc et vous ne testez plus au niveau que vous croyez être en train de tester - vous obtenez plus souvent de faux rejets que dans des cas dans lesquels la stratégie est appliquée vraies hypothèses nulles. $\alpha$ $\alpha\cdot 100\%$

Globalement, nous cherchons que nous pourrions exprimer par Les deux événements de l'union sont disjoints, nous sommes donc après Pour le second terme, il y a probabilité de masse entre les quantiles supérieurs et (c'est-à-dire les points de rejet du tests unilatéraux et bilatéraux), c'est-à-dire la probabilité conjointe que le test bilatéral ne rejette pas mais que le unilatéral le fasse. Par conséquent,

P (two-sided rejects or one-sided does, but two sided doesn't)

$P(\text{two-sided rejects or one-sided does, but two sided doesn't})$

P (two-sided rejects \cup (one-sided does \cap two sided doesn't))

$P(\text{two-sided rejects} \cup \text{(one-sided does} \cap \text{two sided doesn't)})$

P (two-sided rejects) + P (one-sided does \cap two sided doesn't)

$P(\text{two-sided rejects}) +P(\text{one-sided does} \cap \text{two sided doesn't})$

α / 2

$\alpha/2$

1 - α

$1-\alpha$

1 - α / 2

$1-\alpha/2$

P (one-sided does \cap two sided doesn't) = α / 2

$P(\text{one-sided does} \cap \text{two sided doesn't})=\alpha/2$ sorte que la probabilité de rejet globale de cette stratégie est En effet, nous additionnons simplement les probabilités que la statistique de test atterrisse à gauche du quantile, entre les quantiles supérieur et ou à droite du paramètre quantile.

α + \frac{α}{2} > α

$\alpha+\frac{\alpha}{2}>\alpha$

α / 2

$\alpha/2$

1 - α

$1-\alpha$

1 - α / 2

$1-\alpha/2$

1 - α / 2

$1-\alpha/2$

Voici une petite illustration numérique:

n <- 100
alpha <- 0.05

two.sided <- function (x, alpha=0.05) (sqrt(n)*abs(mean(x)) > qnorm(1-alpha/2)) # returns one if two-sided test rejects, 0 else
one.sided <- function (x, alpha=0.05) (sqrt(n)*mean(x) > qnorm(1-alpha))        # returns one if one-sided test rejects, 0 else

reps <- 1e8

two.step <- rep(NA,reps)
for (i in 1:reps){
  x <- rnorm(n) # generate data from a N(0,1) distribution, so that the test statistic sqrt(n)*mean(x) is also N(0,1) under H_0: mu=0
  two.step[i] <- ifelse(two.sided(x)==0, one.sided(x), 1) # first conducts two-sided test, then one-sided if two-sided fails to reject
}
> mean(two.step)
[1] 0.07505351

— Christoph Hanck
source

1

Ce n'est qu'une façon arbitraire de voir les choses: à quoi sert un test statistique? La raison la plus fréquente pour effectuer un test est probablement parce que vous voulez convaincre les lecteurs (c.-à-d. Rédacteurs, relecteurs, lecteurs, auditoire) que vos résultats sont "suffisamment éloignés du hasard" pour être dignes de mention. Et d’une manière ou d’une autre, nous avons conclu que est la vérité arbitraire, mais universelle. $p < \alpha = 0.05$

Pour toute autre raison sensée d'effectuer des tests, vous ne vous contenterez jamais d'un fixe de , mais vous pourrez varier votre d'un cas à l'autre, en fonction de l'importance des conséquences que vous tirez du test. $\alpha$ $0.05$ $\alpha$

Retour à convaincre les gens, que quelque chose est "assez loin de tout hasard" pour répondre à un critère universel de la notoriété. Nous avons un critère insensible, pourtant universellement accepté, que nous pensons être "non aléatoire" à pour les tests bilatéraux $\alpha=0.05$ . Un critère équivalent serait d'examiner les données, de décider de la manière de tester et de tracer la ligne à . La seconde est équivalente à la première, mais ce n’est pas ce avec quoi nous nous sommes habitués. $\alpha=0.025$

Une fois que vous commencez à faire des tests unilatéraux avec vous vous méfiez des comportements indus, de la recherche de sens. Ne faites pas ça si vous voulez convaincre les gens! $\alpha=0.05$

Ensuite, il y a bien sûr ce qu'on appelle le degré de liberté des chercheurs . Vous pouvez trouver une signification dans n'importe quel type de données, si vous disposez de suffisamment de données et que vous êtes libre de les tester de nombreuses manières. C'est pourquoi vous devez décider du test que vous effectuez avant d'examiner les données. Tout le reste conduit à des résultats de test non reproductibles. Je conseille d'aller sur youtube et de regarder Andrew Gelmans parler "Crimes sur données pour plus d'informations.

— Bernhard
source

1

Hmm, l'hypothèse nulle n'est pas que les résultats sont aléatoires. Cela serait source de confusion pour les cliniciens et les scientifiques, qui voient dans les résultats de leurs travaux un résultat escompté.

— AdamO

1

Votre point "Une fois que vous commencez à faire des tests unilatéraux avec ..." est important. La raison pour laquelle est si courante est que l'expérience pratique de RA Fisher à Rothamsted a montré qu'il valait généralement la peine d'étudier plus de écarts-types par rapport à la valeur attendue. Il a donc choisi comme critère de base un test bilatéral de , Pas l'inverse. Ainsi, l’équivalent unilatéral serait de

α = 0.05

$α=0.05$

0.05

$0.05$

2

$2$

5 %

$5\%$

2.5 %

$2.5\%$

— Henry

1

À première vue, aucune de ces affirmations ne permet d'affirmer qu'un test bilatéral est «supérieur» à une étude unilatérale. Il faut simplement établir un lien logique entre l'hypothèse de recherche testée et l'inférence statistique testée.

Par exemple:

... considérer les conséquences de l'absence d'un effet dans l'autre sens. Imaginez que vous avez développé un nouveau médicament qui, à votre avis, constitue une amélioration par rapport à un médicament existant. Vous souhaitez maximiser la capacité à détecter l'amélioration, vous optez donc pour un test unilatéral. Ce faisant, vous ne testez pas la possibilité que le nouveau médicament soit moins efficace que le médicament existant.

Tout d'abord, il s'agit d'une étude sur les médicaments. Donc, avoir tort dans le sens opposé a une signification sociale qui dépasse le cadre des statistiques. Donc, comme beaucoup l'ont dit, la santé n'est pas le meilleur moyen de généraliser.

Dans la citation ci-dessus, il semble s'agir de tester un médicament alors qu'il en existe déjà un autre. Donc, pour moi, cela implique que votre médicament est supposé déjà efficace. La déclaration concerne la comparaison de deux médicaments efficaces par la suite. Lorsque vous comparez ces distributions si vous négligez une partie de la population pour améliorer ses résultats comparatifs? Ce n'est pas seulement une conclusion biaisée, mais la comparaison n'est plus une justification valable: vous comparez des pommes à des oranges.

De même, il peut très bien y avoir des estimations ponctuelles qui, dans l'intérêt de l'inférence statistique, ne font aucune différence dans la conclusion, mais qui revêtent une très grande importance sur le plan social. C'est parce que notre échantillon représente la vie des gens: quelque chose qui ne peut pas "se reproduire" et qui est inestimable.

Alternativement, la déclaration implique que le chercheur a un incitatif: "vous souhaitez maximiser votre capacité à détecter l'amélioration ..." Cette notion n'est pas triviale pour le cas isolé en tant que protocole erroné.

Le choix d'un test unilatéral après l'exécution d'un test bilatéral qui n'a pas permis de rejeter l'hypothèse nulle n'est pas approprié, même si le test bilatéral était "proche" de sa signification.

Là encore, cela implique que le chercheur "passe" son test: d’un recto verso à un verso. Ce n'est jamais approprié. Il est impératif d'avoir un but de recherche avant de tester. En manquant toujours à la commodité d'une approche à deux faces, les chercheurs ne parviennent pas à comprendre le phénomène de manière plus rigoureuse.

En fait, voici un article sur ce sujet, qui démontre que les tests bilatéraux ont été surutilisés.

Il attribue la surutilisation d'un test bilatéral à l'absence de:

distinction claire et lien logique entre l'hypothèse de recherche et son hypothèse statistique

Il prend la position et la position que les chercheurs:

peut ne pas être conscient de la différence entre les deux modes d'expression ou du flux logique dans lequel l'hypothèse de recherche doit être traduite dans l'hypothèse statistique. Un mélange pratique d'hypothèses de recherche et statistiques peut être une cause de la surutilisation de tests bilatéraux, même dans des situations où l'utilisation de tests bilatéraux est inappropriée.

Ce qu'il faut, c'est saisir les statistiques exactes pour interpréter les résultats des tests statistiques. Être inexact sous le nom de conservateur n'est pas recommandé. En ce sens, les auteurs pensent que le simple compte-rendu de résultats de tests tels que "Il s'est avéré statistiquement significatif au seuil de signification de 0,05 (c'est-à-dire, p <0,05)" n'est pas suffisant.

Bien que les tests bilatéraux soient théoriquement plus conservateurs, ils dissocient le lien entre l’hypothèse de recherche directionnelle et son hypothèse statistique, ce qui peut conduire à des valeurs p doublement gonflées.

Les auteurs ont également montré que l'argument en faveur de la conclusion du résultat significatif dans la direction opposée n'a de sens que dans le contexte de la découverte plutôt que dans celui de la
justification . Dans le cas du test de l'hypothèse de recherche et de sa théorie sous-jacente, les chercheurs ne devraient pas aborder simultanément le contexte de la découverte et celui de la justification.

https://www.sciencedirect.com/science/article/pii/S0148296312000550

— Aisync
source

1

Un test de signification est souvent effectué pour l'hypothèse nulle par rapport à une hypothèse alternative . C’est à ce moment que les solutions unilatérale ou bilatérale font la différence.

Pour les valeurs p, cela n'a pas d'importance! Le fait est que vous sélectionnez un critère qui n’apparaît qu’une fraction du temps où l’hypothèse nulle est vraie. Il s’agit soit de deux petits morceaux des deux queues, soit d’un gros morceau d’une queue, soit de quelque chose d’autre. $\alpha$

Le taux d'erreur de type I n'est pas différent pour les tests unilatéraux ou bilatéraux.
Par contre, pour le pouvoir, cela compte .

Si votre hypothèse alternative est asymétrique, vous voudriez alors concentrer le critère pour rejeter l'hypothèse nulle uniquement sur cette queue / fin; de telle sorte que lorsque l'hypothèse alternative est vraie, vous avez moins de chances de ne pas rejeter ("accepter") l'hypothèse nulle.

Si votre hypothèse alternative est symétrique (vous ne souhaitez pas placer plus ou moins de puissance sur un côté spécifique) et que la déviation / l’effet sur les deux côtés est tout aussi attendu (ou simplement inconnu / non informé), il est plus puissant d’utiliser une test bilatéral (vous ne perdez pas 50% de la puissance de la queue que vous ne testez pas et où vous commettez de nombreuses erreurs de type II).

Le taux d'erreur de type II est différent pour les tests unilatéraux et bilatéraux et dépend également de l'hypothèse alternative.

C’est de plus en plus un concept bayésien lorsque nous commençons à faire appel à des idées préconçues pour déterminer si nous nous attendons à ce qu’un effet tombe d’un côté ou des deux, et lorsque nous souhaitons utiliser un test (pour voir si nous pouvons falsifier une hypothèse nulle) pour "confirmer" ou rendre plus probable quelque chose comme un effet.

— Sextus Empiricus
source

0

Donc, une autre tentative de réponse:

Je suppose que prendre à un ou deux côtés dépend complètement de l' hypothèse Alternative .

Prenons l'exemple suivant de moyenne de test dans un test t:

$H_0: \mu=0$

$H_a: \mu \neq 0$

Maintenant, si vous observez une moyenne d'échantillon très négative ou une moyenne d'échantillon très positive, il est peu probable que votre hypothèse soit vraie.

D'autre part, vous serez prêt à accepter votre hypothèse si la moyenne de votre échantillon est proche de qu'elle soit négative ou positive . Vous devez maintenant choisir l’intervalle dans lequel, si la moyenne de votre échantillon tombe, vous ne rejetterez pas votre hypothèse nulle. Évidemment, vous choisiriez un intervalle comportant des côtés positifs et négatifs autour de . Donc, vous choisissez le test à deux côtés. $0$ $0$

Mais que se passe-t-il si vous ne voulez pas tester , mais plutôt . Maintenant, intuitivement, ce que nous voulons faire ici est que si la valeur de la moyenne de l’échantillon est très négative, nous pouvons définitivement rejeter notre valeur nulle. Nous voudrions donc ne rejeter null que pour les valeurs très négatives de la moyenne de l'échantillon. $\mu=0$ $\mu\geq 0$

Mais attendez! Si c'est mon hypothèse nulle, comment définirais-je ma distribution nulle? La distribution nulle de la moyenne de l'échantillon est connue pour certaines valeurs supposées du paramètre population (ici ). Mais sous null actuel, cela peut prendre beaucoup de valeurs. $0$

Disons que nous pouvons faire des hypothèses nulles infinies. Chacun pour assumer une valeur positive de . Mais pensez à ceci: dans notre première hypothèse de , si nous rejetons uniquement la moyenne nulle d'échantillonnage très obsolète, alors toute hypothèse suivante avec rejetera également. Parce que pour eux, la moyenne de l'échantillon est encore plus éloignée du paramètre de population. Donc, fondamentalement, tout ce que nous avons à faire est de faire une hypothèse, mais unilatérale . $\mu$ $H_0: \mu=0$ $H_0: \mu>0$

Donc, votre solution devient:

$H_0: \mu=0$

$H_a: \mu <0$

Le meilleur exemple est le test de Dickey-Fuller pour la stationnarité.

J'espère que cela t'aides. (Voulait inclure des diagrammes mais en répondant depuis un mobile).

— Dayne
source