Inférence pour le lecteur sceptique (mais pas opposé aux mathématiques)

14

Je viens de regarder une conférence sur l'inférence statistique ("comparer les proportions et les moyens"), qui fait partie d'une introduction au cours en ligne de statistiques. Le matériel avait aussi peu de sens pour moi qu'il le fait toujours (maintenant, j'ai dû voir ce genre de choses des dizaines de fois, réparties au cours des trois dernières décennies).

Je recherche un livre sur les "Stats-101 de base" (estimation ponctuelle, estimation d'estimation, inférence statistique, test d'hypothèse, plan d'étude) qui prend au sérieux le problème de convaincre un lecteur sceptique ...

Ci-dessous, je donne quelques exemples du type de question que l'auteur que je recherche prendrait au sérieux et saurait aborder de manière convaincante.

Mais permettez-moi d'abord de prendre une minute pour souligner que dans ce post, je ne pose pas ces questions. Veuillez ne pas y répondre! Je les donne juste à titre d'exemples, et à titre de "test décisif" (pour le type d'auteur de recherche).

Si une "proportion" est simplement la moyenne d'une variable booléenne (c'est-à-dire qui ne prend que les valeurs 0 et 1), pourquoi enseigne-t-on différentes procédures pour faire de l'inférence statistique avec des "proportions" et des "moyens"?
Si la distribution normale est si robuste que l'hypothèse de normalité donne de bons résultats même dans les cas où ces données ne sont pas distribuées de façon tout à fait normale, et si la distribution t est si normale, pourquoi toute cette agitation à propos de l'utilisation de la distribution t au lieu de la Ordinaire?
Que sont exactement les «degrés de liberté» et pourquoi nous en préoccupons-nous?
Qu'est-ce que cela signifie de parler de la "vraie" valeur d'un paramètre, étant donné que nous n'utilisons que des distributions qui semblent similaires aux données?
Comment se fait-il que "l'analyse exploratoire des données" soit une bonne chose, alors que "l'espionnage des données" est une mauvaise chose?

Comme je l'ai dit, je suis découragé par l' attitude qu'implique la négligence de telles questions. Ce n'est pas la "position épistémologique" que je veux voir chez quelqu'un qui m'apprend quelque chose. Je recherche des auteurs qui respectent le scepticisme et la rationalité du lecteur, et qui savent les aborder (sans forcément aller dans des pages et des pages de formalismes et de détails techniques).

Je me rends compte que c'est un défi de taille, et peut-être surtout pour les statistiques. Par conséquent, je ne m'attends pas à ce que de nombreux auteurs y parviennent. Mais pour le moment, je me contenterais d'en trouver un seul .

Permettez-moi d'ajouter que je ne suis pas opposé aux mathématiques. Au contraire, j'adore les mathématiques. (Je suis à l'aise avec l'analyse [aka "calcul avancé"], l'algèbre linéaire, la théorie des probabilités, même la théorie des mesures de base.)

Cela dit, je m'intéresse actuellement aux statistiques "appliquées", "pratiques", "quotidiennes", "réelles" (par opposition aux subtilités théoriques). (Mais je ne veux pas non plus de livre de cuisine!)

FWIW, j'ai lu les premiers chapitres de l' analyse de données en utilisant la régression et les modèles multiniveaux / hiérarchiques de Gelman et Hill, et j'aime le ton des auteurs. Leur objectif est pratique, mais entrez dans la théorie en cas de besoin. Ils prennent également souvent du recul, évaluent les pratiques standard de manière critique et offrent des opinions franches qui font appel au bon sens d'un lecteur sceptique. Malheureusement, ces auteurs n'ont pas écrit de livre consacré au sujet que je pose dans ce post ("Stats 101", comme décrit ci-dessus). Je suis également conscient que l'un de ces auteurs (Gelman) est co-auteur de l' analyse de données bayésienne très appréciée , mais, encore une fois, ce n'est pas ce que je recherche pour le moment.

ÉDITER:

Dikran Marsupial soulève l'objection suivante:

Je ne pense pas qu'il y ait nécessairement quelque chose de mal à négliger les questions, il arrive un moment où le fait de répondre à chaque question nuit à l'exposé des concepts de base qui est souvent plus important (en particulier dans un livre de statistiques 101!).

Je suis d'accord avec ça. Il serait plus précis pour moi de dire que je cherche un "second regard sur les statistiques de base". En fait, avec cela comme motivation, j'ai regardé les manuels utilisés dans les cours de troisième cycle sur l'inférence (disons), et j'ai constaté qu'eux aussi j'ai négligeaient questions comme celles que j'avais énumérées. Si quoi que ce soit, ils semblaient encore moins enclins à se plonger dans de telles questions (afin qu'ils puissent se concentrer sur des questions telles que les conditions d'une convergence ou autre de ceci ou cela ...).

Le problème est que les livres les plus avancés s'adressent à une population de lecteurs radicalement différente , une où le "scepticisme de l'étranger" a été considérablement épuisé. IOW, ceux qui prennent des statistiques de niveau supérieur ont dépassé le point d'être dérangés par les questions qui me dérangent. Ils ne sont plus sceptiques à propos de tout cela. (Comment ont-ils surmonté la bosse du scepticisme? Peut-être que certains n'ont jamais été trop critiques en premier lieu, surtout s'ils ont appris leurs statistiques assez tôt - je sais que je n'étais pas moi-même un étudiant de première année particulièrement critique, par exemple, même si je ne l'ai pas fait prendre des statistiques à ce moment-là. D'autres ont peut-être eu des enseignants qui ont rempli leurs manuels. Certains ont peut-être été assez intelligents pour trouver par eux-mêmes les réponses à ces questions. Qui sait.)

references inference point-estimation

— kjo
source

2

La plupart de ces questions - celles auxquelles nous ne devons pas répondre - ont déjà de bonnes réponses ici sur CV. Certaines de ces questions ont même des réponses assez banales. Mais il y a mille questions que les gens posent avec n'importe quel sujet - vous ne trouverez jamais d'explication qui couvre toutes les questions possibles, vous n'en trouverez pas non plus qui n'anticipe que les questions spécifiques que vous avez pendant que vous regardez ou en train de lire. Eh bien, vous pourriez en toucher un ou deux par hasard, mais dans l'ensemble, c'est une norme impossible. Pourquoi ne pas simplement poser les questions au fur et à mesure qu'elles se posent? Sur un site qui répond aux questions?

— Glen_b -Reinstate Monica

2

Je dirai que des questions similaires se posent lorsque les gens font des statistiques (et certains livres répondent à certains d'entre eux), mais la plupart d'entre eux ne sont pas de vraies questions liées au scepticisme - ce sont surtout de simples questions de compréhension. Par exemple, "quels sont les degrés de liberté et pourquoi nous en soucions" n'est pas du tout sceptique, il demande une clarté d'explication et de motivation. Les raisons pour lesquelles les utilisateurs avancés de statistiques ne s'inquiètent pas de cela parce qu'ils comprennent déjà pourquoi ils sont si précieux.

— Glen_b -Reinstate Monica

6

Vous avez déjà quelques bonnes suggestions. En voici encore plus. Tout d'abord, deux blogs que je lis sporadiquement, et où des questions telles que vous vous posez sont parfois discutées. Comme ce sont des blogs, vous pouvez même poser des questions et obtenir de très bonnes réponses! Les voilà:

http://andrewgelman.com/ (Andrew Gelman)

http://errorstatistics.com/ (Deborah Mayo)

Et quelques livres, je pense, vous aideront: Box, Hunter & Hunter: Statistiques pour les expérimentateurs.

Comme le titre l'indique, il s'agit d'un ("premier", mais vraiment, vraiment ... deuxième) cours pour les personnes qui souhaitent concevoir leurs propres expériences, et donc les analyser. Très haut sur la partie "pourquoi".

Ensuite: DR Cox: Principles of Statistical Inference, un autre très bon livre sur le "pourquoi" pas le "comment".

Et, puisque vous demandez pourquoi les moyens et les proportions sont traités différemment, voici un livre qui ne fait pas cela: http://www.amazon.com/Statistics-4th-David-Freedman/dp/0393929728/ref=sr_1_1?s = livres & ie = UTF8 & qid = 1373395118 & sr = 1-1 & mots-clés = affranchi + statistiques

Faible en mathématiques, élevé en principes.

— kjetil b halvorsen
source

8

Je doute plutôt qu'il y ait un seul livre qui vous convienne, car les individus ont tendance à être sceptiques sur différentes choses, et les livres sont écrits pour un public cible plutôt que pour des individus. C'est l'une des bonnes choses à propos de l'enseignement par une personne, plutôt que juste un livre, c'est que vous pouvez poser des questions au fur et à mesure. C'est une chose assez difficile à faire dans un texte linéaire.

Je ne pense pas qu'il y ait nécessairement quelque chose de mal à négliger les questions, il arrive un moment où le fait de répondre à chaque question nuit à l'exposé des concepts de base qui est souvent plus important (en particulier dans un livre de statistiques 101!).

Je soupçonne que la meilleure approche consiste à obtenir un bon livre, puis à chercher la réponse aux questions sans réponse ailleurs. J'ai une étagère pleine de textes statistiques devant moi, simplement parce qu'aucun d'eux seul n'est tout ce dont j'ai besoin (pas même le livre de Jaynes; o).

Pour le débutant absolu, je pense que le livre de Grant Foster "Understanding Statistics" est un bon point de départ, mais je pense qu'il est plutôt trop basique dans ce cas.

— Dikran Marsupial
source

1

"Je ne pense pas qu'il y ait nécessairement quelque chose de mal à négliger les questions ..." Je pense que c'est une objection juste; J'ai ajouté une modification à mon message pour y remédier.

— kjo

7

$X$ $\Theta$ $X\mid \Theta$ $\Theta$ $X$ $t$ $X$ $\Theta$

— Zen
source

5

+1 une grande partie de la raison pour laquelle les procédures statistiques semblent douteuses est qu'elles sont plutôt contre-intuitives et une appréciation historique de la façon dont les statistiques ont fini par être telles est probablement une bonne approche pour les sceptiques.

— Dikran Marsupial

2

@DikranMarsupial: En fait, j'ai lu "L'histoire des statistiques" de Stigler précisément pour aller au fond de mes difficultés avec les statistiques. Et cela en a aidé certains. Malheureusement, cela laisse de côté la majeure partie de l'ère Fisher vs Neyman, lorsque (je soupçonne) une grande partie de la bizarrerie perverse s'est produite. J'ai tenté une cinquantaine de pages du livre de Hald, mais j'ai trouvé ses dérivations impossibles à suivre: elles s'adressaient clairement à des lecteurs possédant une expertise statistique significative ... À bien y penser, je pense qu'un livre adressé au profane instruit et intitulé "Pourquoi les statistiques sont-elles si étranges? " se vendrait bien ... :)

— kjo

4

À mon humble avis, la contre-intuitivité des statistiques est antérieure à l'ère Fisher vs Neyman (bien que l'intuitivité n'implique pas l'utilité ou vice-versa). Les livres de Ian Hacking peuvent valoir la peine d'être essayés, j'ai apprécié "L'émergence de la probabilité". Je trouve les statistiques bayésiennes beaucoup plus faciles à comprendre conceptuellement que les statistiques fréquentistes, mais beaucoup plus difficiles à réaliser dans la pratique. Comprendre les différences entre les approches bayésienne et fréquentiste m'a beaucoup aidé à comprendre l'approche fréquentiste.

— Dikran Marsupial

1

Merci, je vais vérifier Hacking. Ses livres sont en vue depuis longtemps, même si j'ai repoussé sa lecture en pensant qu'il était plus centré sur la philosophie de la théorie des probabilités (un sujet que je trouve fascinant en soi). Cela dit, je reconnais qu'au moins quelques-uns de mes problèmes avec les statistiques empiètent sur l'interprétation de la probabilité, alors peut-être que lire Hacking résoudra au moins certaines de mes objections.

— kjo

2

@kjo J'ai lu Hacking's Logic of Statistical Inference & l' ai trouvé très 'philosophique' - il était sur l'idée de vraisemblance comme 'support' et sur Neyman-Pearson mais a continué avec des exemples simples - n'a pas discuté des paramètres de nuisance, multi -inférence de paramètre, ou quelque chose de délicat (sauf si j'ai oublié). À lire, certes, mais je ne le recommanderais pas pour commencer.

— Scortchi - Réintégrer Monica

6

Abelson (1995), Statistics as Principled Argument est introductif et a un point de vue intéressant sur certaines des questions qui déroutent souvent les apprenants.

Mais peut-être que vous avez juste besoin de lire quelques livres sur les statistiques théoriques (en ignorant tout ce qui concerne la convergence, les espaces métriques, etc.), puis même s'ils ne répondent pas spécifiquement à des questions comme vos exemples, vous pourrez répondre à la plupart des vous-même, et recherchez le reste, comme le suggère @Dikran.

J'ai suggéré dans un autre fil de lecture Cox & Hinkley, Theoretical Statistics ou Cox, Principles of Statistical Inference avec Casella & Berger, Statistical Inference pour comprendre les différentes perspectives.

— Scortchi - Réintégrer Monica
source

1

Je l'ai trouvé intéressant mais je ne pense pas que ce soit au niveau attendu par le PO.

— Gala

@Gael Vous avez probablement raison, surtout au vu de l'édition.

— Scortchi - Réintégrer Monica