Quel est le concept statistique le plus difficile à saisir?


32

C'est une question similaire à celle ici , mais suffisamment différente, je pense, pour que cela vaille la peine d'être posée.

Je pensais mettre comme point de départ ce que je pense être l’un des plus difficiles à comprendre.

Le mien est la différence entre probabilité et fréquence . L'une se situe au niveau de "connaissance de la réalité" (probabilité), tandis que l'autre se situe au niveau de "la réalité elle-même" (fréquence). Cela me rend presque toujours perplexe si j'y pense trop.

Edwin Jaynes a inventé un terme appelé "erreur de projection mentale" pour décrire le mélange de ces choses.

Des idées sur d'autres concepts difficiles à saisir?


(Je ne sais pas assez pour que ceci soit une réponse, ajoutant donc un commentaire.) J'ai toujours pensé qu'il était étrange que PI apparaisse dans les équations statistiques. Je veux dire - qu'est-ce que PI a à voir avec les statistiques? :)
Rétablir Monica - Au revoir SE

2
Je suis d' accord (Dans mon surprisal) - Je pense que son apparaît dans de nombreuses analyses mathématiques. Juste une remarque , vous pouvez écrire par des commandes latex comme enfermé dans $ signes. J'utilise la page wiki pour obtenir la syntaxe en.wikibooks.org/wiki/LaTeX/Mathematics . Une autre astuce consiste à "cliquer avec le bouton droit" sur une équation que vous voyez sur ce site et à sélectionner "Afficher la source" pour obtenir les commandes utilisées. π \ piππ\pi
Probistislogic

@Wiki Si vous acceptez que apparaisse lorsque vous passez de la mesure de la longueur d'un trait droit à la longueur d'un cercle, je ne vois pas pourquoi cela n'apparaîtrait pas en passant d'une mesure de probabilité de chute sur un segment pour mesurer la probabilité de tomber dans un morceau de cercle? π
robin girard

@Wiki Chaque fois que vous avez des fonctions trigonométriques (sinus, cosinus, tangente, etc.), vous risquez de faire apparaître . Et rappelez-vous que chaque fois que vous dérivez une fonction, vous trouvez réellement une tangente. Ce qui est surprenant, c'est que n'apparaît pas plus souvent. πππ
Carlos Accioly

@Carlos Je soupçonne que la prévalence de est principalement due à l'utilisation de la métrique , conduisant à des n-sphères. Dans le même ordre d'idées, je suppose que c'est chez la prévalence est due à l'analyse. 2 e2π2e
mardi

Réponses:


31

pour une raison quelconque, les gens ont du mal à comprendre ce qu'est une valeur p.


3
@shabbychef: la plupart des gens le saisissent de la pire façon possible, c'est-à-dire la probabilité de commettre une erreur de type I.
suncoolsu

2
Je pense que cela est principalement lié à la façon dont les valeurs p sont expliquées dans les classes (par exemple, en donnant une définition rapide et sans spécifier quelles valeurs p ne sont PAS)
nico le

Je pense que cela est principalement lié à la façon dont il est introduit. Pour moi, c'était un "complément" au test d'hypothèse classique - il semble donc que ce soit juste une autre façon de faire un test d'hypothèse. L’autre problème est qu’il n’est généralement enseigné que s’agissant d’une distribution normale, où tout fonctionne «bien» (par exemple, la valeur p est une mesure de la preuve permettant de tester une moyenne normale). Généraliser la valeur p n'est pas facile car il n'y a pas de principes spécifiques pour guider la généralisation (par exemple, il n'y a pas d'accord général sur la manière dont une valeur p doit varier avec la taille de l'échantillon et les comparaisons multiples)
probabilité,

@shabbychef +1 bien que les étudiants aient souvent des difficultés avec les valeurs p (en gros parce que le concept de test est un peu plus subtil qu'un processus de décision binaire et qu'il est difficile de comprendre "l'inversion d'une fonction"). Quand vous dites "pour une raison quelconque", voulez-vous dire qu'il n'est pas clair pour vous pourquoi les gens ont des difficultés? PS: Si je pouvais, j’essaierais d’établir des statistiques sur ce site sur la relation entre "être la meilleure réponse" et "parler de la valeur p" :). Je me suis même même demandé si le concept statistique le plus difficile à comprendre pouvait avoir le plus de voix positive (s'il est difficile à saisir ... :))
robin girard le

1
@eduardo - oui, une p-valeur suffisamment petite suffit à jeter le doute sur l'hypothèse nulle: mais elle est calculée en isolation complète par rapport à une alternative. En utilisant uniquement les valeurs p, vous ne pouvez jamais formellement "rejeter" , car aucune alternative n'a été spécifiée . Si vous rejetez formellement , vous devez également rejeter les calculs qui reposaient sur l'hypothèse que soit vraie, ce qui signifie que vous devez rejeter le calcul de la valeur p obtenue sous cette hypothèse c'est le seul moyen de raisonner de manière constante ). H 0 H 0H0H0H0
Probistislogic

23

Semblable à la réponse de shabbychef, il est difficile de comprendre la signification d'un intervalle de confiance dans les statistiques fréquentistes. Je pense que le plus gros obstacle est qu'un intervalle de confiance ne répond pas à la question à laquelle nous voudrions répondre. Nous aimerions savoir, "quelle est la chance que la vraie valeur se situe à l'intérieur de cet intervalle particulier?" Au lieu de cela, nous ne pouvons que répondre "quelle est la probabilité qu'un intervalle choisi de manière aléatoire ainsi créé contienne le paramètre true?" Ce dernier est évidemment moins satisfaisant.


1
Plus je pense aux intervalles de confiance, plus il m'est difficile de penser à quel type de question ils peuvent répondre à un niveau conceptuel auquel il est impossible de répondre en demandant "la chance qu'une valeur réelle se trouve dans un intervalle, compte tenu de l'état de connaissance". Si je devais demander "quelle est la chance (sous réserve de mes informations) que le revenu moyen en 2010 se situe entre 10 000 et 50 000?" Je ne pense pas que la théorie des intervalles de confiance puisse apporter une réponse à cette question.
probabilitéislogique

21

Quelle est la signification de "degrés de liberté"? Que diriez-vous de df qui ne sont pas des nombres entiers?


13

La probabilité conditionnelle conduit probablement à la plupart des erreurs dans l'expérience quotidienne. Bien sûr, il y a beaucoup de concepts plus difficiles à comprendre, mais les gens n'ont généralement pas à s'en soucier - ils ne peuvent pas échapper à celui-ci et sont une source de mésaventures effrénées.


+1; Pourriez-vous ajouter un ou deux exemples, favoris ou actuels?
denis

1
Pour commencer: P (vous avez la maladie | le test est positif)! = P (le test est positif | vous avez la maladie).
xmjx

9

Je pense que très peu de scientifiques comprennent ce point fondamental: il n’est possible d’interpréter les résultats d’analyses statistiques à la valeur nominale que si chaque étape était planifiée à l’avance. Plus précisément:

  • La taille de l'échantillon doit être choisie à l'avance. Il n’est pas correct de continuer à analyser les données au fur et à mesure que de nouveaux sujets sont ajoutés, en s’arrêtant lorsque les résultats semblent bons.
  • Toute méthode utilisée pour normaliser les données ou pour exclure les valeurs éloignées doit également être décidée à l'avance. Il n'est pas correct d'analyser divers sous-ensembles de données jusqu'à ce que vous trouviez les résultats souhaités.
  • Enfin, bien sûr, les méthodes statistiques doivent être définies à l’avance. N'est-il pas acceptable d'analyser les données via des méthodes paramétriques et non paramétriques et de sélectionner les résultats souhaités?

Les méthodes exploratoires peuvent être utiles pour, bien, explorer. Mais vous ne pouvez pas faire demi-tour et exécuter des tests statistiques réguliers et interpréter les résultats de la manière habituelle.


5
Je pense que John Tukey pourrait en désaccord en.wikipedia.org/wiki/Exploratory_data_analysis ; o)
Dikran marsupial

3
Je suis partiellement en désaccord ici. Je pense que l’avertissement qui manque aux gens est qu’il est facile d’ignorer les opérations de conditionnement appropriées pour ce type de problème. Chacune de ces opérations modifie les conditions de l'inférence, et donc ses conditions d'application (et donc sa généralité). Celles-ci ne sont définitivement applicables qu'à "l'analyse de confirmation", où un modèle bien défini et une question ont été construits. En phase exploratoire, ne cherchez pas à répondre à des questions précises, mais plutôt à construire un modèle et à émettre une hypothèse pour les données.
Probistislogic

J'ai édité un peu ma réponse pour prendre en compte les commentaires de Dikran et de probabilitéislogic. Merci.
Harvey Motulsky

1
Pour moi, "exclure les valeurs aberrantes" n'est pas aussi faux que votre réponse l'indique. Par exemple, vous ne pouvez être intéressé que par les relations entre un certain nombre de réponses, et le fait d’exclure des valeurs aberrantes facilite réellement ce type d’analyse. Par exemple, si vous souhaitez modéliser le revenu de la «classe moyenne», il est judicieux d’exclure les valeurs extrêmes extrêmement riches et pauvres. Vos commentaires s'appliquent uniquement aux éléments aberrants dans votre cadre d'inférence (par exemple, des observations "étranges" de la classe moyenne)
probabilislogic

2
En fin de compte, le véritable problème des problèmes soulevés dans la réponse initiale est qu’ils invalident (au moins partiellement) les valeurs prédictives. Si vous souhaitez quantifier un effet observé, vous devriez pouvoir faire tout ce qui précède en toute impunité.
russellpierce

9

La langue dans la joue: pour les fréquentistes, le concept bayésien de probabilité; pour les bayésiens, le concept fréquentiste de probabilité. ; o)

Les deux ont du mérite, bien sûr, mais il peut être très difficile de comprendre pourquoi un cadre est intéressant / utile / valable si votre compréhension de l’autre est trop ferme. La validation croisée est un bon remède, car poser des questions et écouter les réponses constituent un bon moyen d'apprendre.


2
Je règle ce dont je me souviens: utilisez les probabilités pour prédire les fréquences. Une fois les fréquences observées, utilisez-les pour évaluer les probabilités que vous avez attribuées. Ce qui est malheureusement déroutant, c’est que souvent la probabilité que vous assignez est égale à une fréquence que vous avez observée. Une chose que j’ai toujours trouvée étrange, c’est pourquoi les fréquentants utilisent même le mot probabilité. cela ne rendrait-il pas leurs concepts plus faciles à comprendre si l’expression "la fréquence d’un événement" était utilisée au lieu de "la probabilité d’un événement"?
Probistislogic

p(x)L(xn,x)dxi=1i=nL(x[ni],xi)xnx[ni]xi

8

D'après mon expérience personnelle, le concept de probabilité peut également être très agité, en particulier pour les non-statisticiens. Comme le dit Wikipédia, il est très souvent associé au concept de probabilité, ce qui n’est pas tout à fait correct.



6

Que représentent réellement les différentes distributions, sinon leur utilisation?


3
C’est la question que j’ai trouvée la plus distrayante après les statistiques 101. Je rencontrerais de nombreuses distributions sans aucune motivation pour elles au-delà des "propriétés" qui étaient pertinentes pour les sujets à traiter. Il a fallu beaucoup de temps pour trouver ce que tout le monde représentait.
Sesqu le

1
L'entropie maximale "penser" est une méthode qui aide à comprendre ce qu'est une distribution, à savoir un état de connaissance (ou une description de l'incertitude liée à quelque chose). C’est la seule définition qui me paraisse logique dans toutes les situations
probabilité,

Ben Bolker en donne un bon aperçu dans la section «Modèles de distribution et données écologiques» de R
David LeBauer, le

5

Je pense que la question est interprétable de deux manières, ce qui donnera des réponses très différentes:

1) Quel est le concept le plus difficile à comprendre pour les personnes qui étudient les statistiques, en particulier à un niveau relativement avancé?

2) Quel concept statistique est mal compris par le plus grand nombre?

Pour 1) je ne connais pas la réponse du tout. Quelque chose de la théorie de la mesure, peut-être? Un type d'intégration? Je ne sais pas.

Pour 2) valeur p, haut la main.


La théorie de la mesure n’est ni un domaine statistique ni difficile. Certains types d'intégration sont difficiles, mais encore une fois, ce ne sont pas des statistiques.
Pyon

5

L’intervalle de confiance dans la tradition non bayésienne est difficile.


5

Je pense que la première fois, le bateau manque à peu près à tout. Je pense que ce que la plupart des étudiants ne comprennent pas, c'est qu'ils estiment généralement des paramètres à partir d'échantillons. Ils ne connaissent pas la différence entre une statistique d'échantillon et un paramètre de population. Si vous battez ces idées dans leur tête, les autres trucs devraient suivre un peu plus facilement. Je suis sûr que la plupart des étudiants ne comprennent pas non plus le noeud du CLT.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.