Je viens de regarder une conférence sur l'inférence statistique ("comparer les proportions et les moyens"), qui fait partie d'une introduction au cours en ligne de statistiques. Le matériel avait aussi peu de sens pour moi qu'il le fait toujours (maintenant, j'ai dû voir ce genre de choses des dizaines de fois, réparties au cours des trois dernières décennies).
Je recherche un livre sur les "Stats-101 de base" (estimation ponctuelle, estimation d'estimation, inférence statistique, test d'hypothèse, plan d'étude) qui prend au sérieux le problème de convaincre un lecteur sceptique ...
Ci-dessous, je donne quelques exemples du type de question que l'auteur que je recherche prendrait au sérieux et saurait aborder de manière convaincante.
Mais permettez-moi d'abord de prendre une minute pour souligner que dans ce post, je ne pose pas ces questions. Veuillez ne pas y répondre! Je les donne juste à titre d'exemples, et à titre de "test décisif" (pour le type d'auteur de recherche).
Si une "proportion" est simplement la moyenne d'une variable booléenne (c'est-à-dire qui ne prend que les valeurs 0 et 1), pourquoi enseigne-t-on différentes procédures pour faire de l'inférence statistique avec des "proportions" et des "moyens"?
Si la distribution normale est si robuste que l'hypothèse de normalité donne de bons résultats même dans les cas où ces données ne sont pas distribuées de façon tout à fait normale, et si la distribution t est si normale, pourquoi toute cette agitation à propos de l'utilisation de la distribution t au lieu de la Ordinaire?
Que sont exactement les «degrés de liberté» et pourquoi nous en préoccupons-nous?
Qu'est-ce que cela signifie de parler de la "vraie" valeur d'un paramètre, étant donné que nous n'utilisons que des distributions qui semblent similaires aux données?
Comment se fait-il que "l'analyse exploratoire des données" soit une bonne chose, alors que "l'espionnage des données" est une mauvaise chose?
Comme je l'ai dit, je suis découragé par l' attitude qu'implique la négligence de telles questions. Ce n'est pas la "position épistémologique" que je veux voir chez quelqu'un qui m'apprend quelque chose. Je recherche des auteurs qui respectent le scepticisme et la rationalité du lecteur, et qui savent les aborder (sans forcément aller dans des pages et des pages de formalismes et de détails techniques).
Je me rends compte que c'est un défi de taille, et peut-être surtout pour les statistiques. Par conséquent, je ne m'attends pas à ce que de nombreux auteurs y parviennent. Mais pour le moment, je me contenterais d'en trouver un seul .
Permettez-moi d'ajouter que je ne suis pas opposé aux mathématiques. Au contraire, j'adore les mathématiques. (Je suis à l'aise avec l'analyse [aka "calcul avancé"], l'algèbre linéaire, la théorie des probabilités, même la théorie des mesures de base.)
Cela dit, je m'intéresse actuellement aux statistiques "appliquées", "pratiques", "quotidiennes", "réelles" (par opposition aux subtilités théoriques). (Mais je ne veux pas non plus de livre de cuisine!)
FWIW, j'ai lu les premiers chapitres de l' analyse de données en utilisant la régression et les modèles multiniveaux / hiérarchiques de Gelman et Hill, et j'aime le ton des auteurs. Leur objectif est pratique, mais entrez dans la théorie en cas de besoin. Ils prennent également souvent du recul, évaluent les pratiques standard de manière critique et offrent des opinions franches qui font appel au bon sens d'un lecteur sceptique. Malheureusement, ces auteurs n'ont pas écrit de livre consacré au sujet que je pose dans ce post ("Stats 101", comme décrit ci-dessus). Je suis également conscient que l'un de ces auteurs (Gelman) est co-auteur de l' analyse de données bayésienne très appréciée , mais, encore une fois, ce n'est pas ce que je recherche pour le moment.
ÉDITER:
Dikran Marsupial soulève l'objection suivante:
Je ne pense pas qu'il y ait nécessairement quelque chose de mal à négliger les questions, il arrive un moment où le fait de répondre à chaque question nuit à l'exposé des concepts de base qui est souvent plus important (en particulier dans un livre de statistiques 101!).
Je suis d'accord avec ça. Il serait plus précis pour moi de dire que je cherche un "second regard sur les statistiques de base". En fait, avec cela comme motivation, j'ai regardé les manuels utilisés dans les cours de troisième cycle sur l'inférence (disons), et j'ai constaté qu'eux aussi j'ai négligeaient questions comme celles que j'avais énumérées. Si quoi que ce soit, ils semblaient encore moins enclins à se plonger dans de telles questions (afin qu'ils puissent se concentrer sur des questions telles que les conditions d'une convergence ou autre de ceci ou cela ...).
Le problème est que les livres les plus avancés s'adressent à une population de lecteurs radicalement différente , une où le "scepticisme de l'étranger" a été considérablement épuisé. IOW, ceux qui prennent des statistiques de niveau supérieur ont dépassé le point d'être dérangés par les questions qui me dérangent. Ils ne sont plus sceptiques à propos de tout cela. (Comment ont-ils surmonté la bosse du scepticisme? Peut-être que certains n'ont jamais été trop critiques en premier lieu, surtout s'ils ont appris leurs statistiques assez tôt - je sais que je n'étais pas moi-même un étudiant de première année particulièrement critique, par exemple, même si je ne l'ai pas fait prendre des statistiques à ce moment-là. D'autres ont peut-être eu des enseignants qui ont rempli leurs manuels. Certains ont peut-être été assez intelligents pour trouver par eux-mêmes les réponses à ces questions. Qui sait.)