Comment expliqueriez-vous la signification statistique aux personnes sans formation statistique?


11

Contexte:
J'ai dû effectuer une analyse de données pour un client (une sorte d'avocat) qui était un débutant absolu en statistique. Il m'a demandé ce que le terme "signification statistique" signifie et j'ai vraiment essayé de l'expliquer ... mais comme je ne suis pas bon pour expliquer les choses, j'ai échoué;)

Réponses:


15

Les différences résultent du hasard.

Lorsque nous pensons que quelque chose est statistiquement significatif, nous pensons que la différence est plus grande que ce qui peut raisonnablement être expliqué comme un événement fortuit.


J'aime l'utilisation du hasard, mais je pense que c'est très trompeur en termes d'utilisation courante des tests de signification. Par exemple, une grande taille d'échantillon signifie que vous obtiendrez presque toujours une signification en raison des différences de base «aléatoires». Il est assez largement admis que ces résultats peuvent être qualifiés de "statistiquement significatifs" bien qu'ils soient raisonnablement expliqués par hasard.
Flask

@Flask: dans quel sens ces différences de base sont-elles dues au hasard?
Scortchi - Réintégrer Monica

@Scortchi Si la randomisation a été effectuée, les différences peuvent être dues au hasard. Voyez ici . Même si elle a été réalisée, quelque chose peut introduire un biais plus tard. Voyez ici . Si la randomisation n'a pas été effectuée, cela peut être dû au hasard ou à un biais de l'investigateur ou à un certain nombre de raisons.
Flask

1
Réponse utile sauf qu'elle ne s'applique qu'aux tests de différences.
rolando2

2
+1 C'est une excellente réponse car elle évite les arcanes de valeurs de p, de probabilités, de distributions, d'hypothèses nulles, etc., et va droit au but d'une manière qui s'applique à ce que la plupart des avocats traiteront. Le fait qu'il ne soit pas exhaustif est hors de propos: les détails et les variations peuvent être traités plus tard. Si on m'obligeait à améliorer cela, le principal changement que j'apporterais serait de souligner que les croyances sur la signification statistique sont basées sur des données : cela distinguerait cette description, disons, des croyances théologiques.
whuber

3

REMARQUE: ce que je veux souligner dans cette réponse, c'est que la signification statistique est un outil utile, mais aussi différent de la vérité.

Prenez un paquet de 52 cartes. Si mon client est innocent, c'est un paquet de cartes normal, 13 cœurs. Si mon client ment, c'est un paquet fixe et les 52 cartes sont des coeurs.

Je tire la première carte et c'est un coeur. Aha, coupable! Eh bien, évidemment, le bon sens nous dit que ce n'est pas le cas: il y avait une chance sur quatre que cela se produise même s'il était innocent. Nous n'avons pas de signification statistique simplement en regardant une seule carte.

Nous tirons donc une deuxième carte. Un autre cœur. Hhhmmm ... définitivement coupable alors! Eh bien, il y avait encore 12 coeurs dans les 51 cartes restantes, donc ce n'est pas impossible. Les maths (13/52 * 12/51 = 0,0588) nous disent que cela se produit environ 6% du temps même si innocent. Pour la plupart des scientifiques, cela ne compterait toujours pas.

Piochez une troisième carte, un autre cœur! Trois d'affilée. Les chances que cela se produise sont (13/52 * 12/51 * 11/50 = 0,01294), donc un peu plus de 1% du temps cela peut arriver par hasard.

Dans une grande partie de la science, 5% est utilisé comme point de coupure. Donc, si vous n'avez pas d'autre preuve que ces trois cartes, vous avez un résultat statistiquement significatif qu'il est coupable.

Le point important est que plus vous êtes autorisé à regarder de cartes, plus votre confiance en sa culpabilité est meilleure, ce qui est une autre façon de dire que plus la signification statistique est élevée.

REMARQUE: vous n'avez jamais de preuve de sa culpabilité, sauf si vous êtes autorisé à regarder 14 cartes. Avec un paquet de cartes normal, il est théoriquement possible de dessiner 13 coeurs d'affilée, mais 14 est impossible. [Mis à part les pédants: supposons que les numéros sur les cartes ne sont pas visibles; toutes les cartes sont l'une des quatre combinaisons possibles, et c'est tout.]

REMARQUE: vous avez la preuve de son innocence au moment où vous piochez une carte autre qu'un cœur. En effet, il n'y avait que deux packs possibles: normal ou tous les cœurs. La vie réelle est plus compliquée, et les maths deviennent plus compliqués aussi.

Soit dit en passant, si votre client n'est pas un joueur de cartes, essayez Monopoly: tout le monde fait un double-six parfois; mais si quelqu'un fait un double-six à chaque fois que vous vous méfiez. Les statistiques nous permettent simplement de donner un chiffre exact sur la façon dont nous devons être méfiants.


3

Mon propre conseil est de ne pas parler des choses suivantes:

  1. valeurs p,
  2. statistiques de test,
  3. la probabilité que les choses se produisent uniquement par hasard.

Ne soyez pas trop dur avec vous-même à propos de l'avocat. Il s'agit d'une personne éduquée qui a passé au moins un semestre dans un cours de statistique universitaire, et pas un petit peu avec lui. C'est la même histoire pour pratiquement tous les autres non-scientifiques avec qui j'ai travaillé - la signification statistique ne tient pas . C'est tout simplement un concept trop contre nature.

Je vous encourage à expliquer la signification statistique en termes de preuves . Les statisticiens classiques ont codé les preuves sur une échelle de 0 à 1, où des valeurs plus petites constituent plus de preuves et 0,05 est l'endroit où la ligne est conventionnellement tracée.


imo l'idée de sig. peut rester avec des non-scientifiques; ce qui est souvent perçu comme non naturel est la définition technique, si les gens vont jusque-là. En ce qui concerne les preuves, il s'agit bien sûr de preuves: la question est de savoir comment traiter statistiquement les preuves afin de prendre une décision concernant sig.
rolando2

J'aime votre optimisme, mais je ne suis pas d'accord pour dire qu'il est évident pour la personne type que la signification statistique est une question de preuve. Je pense qu'ils le voient comme une sorte de commutateur à bascule lorsque votre ensemble de données devient suffisamment grand et que tous les nombres calculés sont maintenant en quelque sorte «valides». Vous affirmez qu'il est important pour le profane de savoir comment les preuves sont quantifiées, alors préparez-vous à parler de probabilités calculées sous une hypothèse que vous ne croyiez probablement pas vraie en premier lieu.
Ben Ogorek

Ah mais si vous parlez de preuves, vous entrez en terre bayésienne.
Arthur B.

1
Je ne pense pas que les Bayésiens possèdent des "preuves" (le concept), bien qu'ils les aient certainement formalisés. Je dirais qu'une petite valeur p est la preuve de quelque chose.
Ben Ogorek

1

"Statistiquement significatif" signifie que quelque chose aurait pu se produire au hasard, mais c'est peu probable. Au lieu de cela, il est beaucoup plus probable qu'il existe une sorte de cause. Vous devriez rendre cela plus concret avec un exemple qui est pertinent pour votre client, car cette explication est tellement abstraite.

Par exemple, si l'avocate Anne a gagné beaucoup plus de cas en moyenne que Bill, cela aurait pu se produire au hasard. Cependant, si Anne a gagné plus de cas statistiquement significatifs, il est beaucoup plus probable qu'il y ait quelque chose qui pourrait aider à expliquer pourquoi Anne a gagné plus de cas que Bill. Nous ne connaissons pas la cause. Peut-être qu'Anne est une meilleure avocate ou que Bill choisit exprès des cas plus difficiles.


0

Restez simple et concis!

Une valeur de p est définie comme la probabilité d'obtenir des résultats aussi ou plus extrêmes que celui que nous avons observé en supposant que le zéro est vrai. Si la valeur de p est suffisamment petite, la valeur null n'est probablement pas vraie. Nous choisissons arbitrairement un seuil pour ce que nous considérons comme un "assez petit" (alpha) et pour toutes les valeurs de p qui tombent en dessous de alpha, nous rejetons le nul.

Voilà comment je l'explique à ma classe de statistiques d'introduction.


Mais que se passe-t-il si vous n'avez aucun moyen de choisir une hypothèse nulle plausible (c'est-à-dire qu'il n'y a jamais deux groupes de personnes identiques), mais que vous n'avez pas non plus suffisamment d'informations pour prédire quoi que ce soit de mieux que moyenne1 = moyenne2)? Expliquer la signification statistique sans mentionner les limites peut nuire.
Flask

0

J'essaierai.

D'abord, vous calculez une valeur de p basée sur les données moyennes et la variation des données. Plus il est variable, moins il est probable qu'il obtienne une petite valeur de p. D'un autre côté, si, par exemple, vous comparez deux groupes, plus la différence entre les moyennes est grande, plus la valeur p est petite.

De plus, la variabilité des données peut être quelque peu annulée en ayant plus de données. Imagerie de deux ensembles de données avec la même différence entre deux moyennes et la même quantité de variabilité. Dans ce cas, l'ensemble avec une plus grande taille d'échantillon aura une valeur de p plus petite.

La partie test ne fait que voir si la valeur de p est inférieure à un certain nombre. Habituellement, les gens utilisent 0,05, mais c'est une coutume sociale arbitraire. Beaucoup de gens pensent que cela n'a aucun sens d'utiliser un nombre arbitraire, mais c'est très courant pour des raisons historiques.

Gardez également à l'esprit que ce n'est pas parce que votre test de signification indique qu'il y a une différence entre deux groupes que vous savez pourquoi il y a cette différence. D'un autre côté, si le test indique qu'il n'y a pas de différence significative, cela pourrait être dû au fait que votre variabilité était trop grande et que vous n'aviez pas suffisamment de données pour obtenir une valeur p faible, cela ne signifie pas qu'il n'y a pas de différence réelle.

Éditer:

Pour résumer, une valeur p inférieure signifie plus de preuves contre la prédiction:

Différence par rapport au résultat prévu -> Valeur p en baisse

Plus de données -> baisse de la valeur p

Plus de variabilité -> Augmentation de la valeur p

Une valeur de p en baisse signifie plus de preuves indiquant que la prédiction est fausse. Chaque prédiction de l'histoire s'est révélée fausse à une décimale près.


0

La signification statistique est un concept utilisé pour justifier l'acceptation ou le rejet d'une hypothèse donnée. Étant donné un ensemble de données, un analyste peut calculer des statistiques et déterminer l'ampleur de diverses relations entre différentes variables.

Le travail des statistiques est de déterminer si les données contiennent suffisamment de preuves pour vous permettre de conclure que les statistiques calculées ou les relations observées entre les variables peuvent être interprétées comme étant de véritables déclarations ou si les résultats observés dans vos données d'échantillon sont simplement dus au hasard. Cela se fait en déterminant une statistique d'échantillon qui présenterait certaines caractéristiques si l'hypothèse nulle est vraie mais pas si l'hypothèse nulle est fausse. Plus l'échantillon statistique pertinent semble présenter les caractéristiques attendues dans l'hypothèse nulle, plus la preuve statistique que l'hypothèse nulle est correcte est forte. De même, moins la statistique de l'échantillon semble présenter les caractéristiques attendues dans l'hypothèse nulle, plus les preuves statistiques que l'hypothèse nulle est correcte sont faibles.

Le montant que l'échantillon statistique présente les caractéristiques attendues sous la valeur nulle est une question de degré, mais pour conclure que l'hypothèse nulle est acceptée ou rejetée, il doit y avoir un seuil arbitraire. En tant que tel, une valeur de coupure est choisie. Si l'échantillon statistique se situe à l'intérieur ou d'un côté de la valeur seuil, il est alors dit qu'il est conforme aux caractéristiques attendues dans l'hypothèse nulle, et donc le résultat peut être considéré comme statistiquement significatif pour la valeur seuil donnée (par exemple à l'alpha de 5% niveau). Si la statistique d'échantillon pertinente tombe de l'autre côté de la valeur seuil, alors elle est dite non conforme aux caractéristiques attendues dans l'hypothèse nulle, et donc le résultat n'est pas considéré comme statistiquement significatif pour la valeur seuil donnée.


Mais à quelle fréquence existe-t-il vraiment une population distincte déterminée à l'avance à laquelle les résultats sont censés s'appliquer. Habituellement, un argument est avancé pour appliquer le résultat au-delà de la population exacte étudiée, qui était un échantillon unique. Combien cette spécificité des sujets / tout ce qui compte est inconnue dans de nombreuses circonstances. Une exception pourrait être le contrôle de la qualité de la fabrication, mais les tests de signification sont utilisés beaucoup plus largement que cela. Je veux seulement souligner les limites de la procédure, qui ont été omises de ma propre éducation.
Flask

@Flask c'est un bon point. J'ai édité ma réponse pour essayer de la rendre plus générale.
tjnel
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.