Intuition statistique / sens des données


20

Je suis un étudiant de deuxième année de premier cycle, étudiant en mathématiques, et j'ai parlé à l'un de mes professeurs de la différence entre la capacité mathématique et la capacité statistique. L'une des principales différences qu'il a évoquées est le «sens des données» qu'il a expliqué comme une combinaison de capacités techniques tout en opérant dans un ensemble de ce que j'appellerai officieusement des «contraintes de bon sens», c'est-à-dire de ne pas perdre de vue la réalité du problème au milieu beaucoup de théorie. Voici un exemple de ce dont je parlais, qui est apparu sur le blog de Gowers:

Dans plusieurs régions du Royaume-Uni, la police a recueilli des statistiques sur les lieux des accidents de la route, identifié les points noirs des accidents, y installé des radars et recueilli davantage de statistiques. Il y avait une nette tendance à ce que le nombre d'accidents à ces points noirs diminue après l'installation des radars. Cela montre-t-il de façon concluante que les radars améliorent la sécurité routière?

La même personne qui a plaidé pour la stratégie randomisée dans le jeu de négociation connaissait déjà la réponse à cette question. Il a dit non, car si vous choisissez les cas extrêmes, vous vous attendez à ce qu'ils soient moins extrêmes si vous relancez l'expérience. J'ai décidé de passer rapidement de cette question car il n'y avait pas grand chose à dire. Mais j'ai parlé aux gens d'un plan que j'avais eu, qui consistait à faire une fausse expérience de télépathie. Je leur ferais deviner les résultats de 20 lancers de pièces, que j'essaierais de leur transmettre par télépathie. Je choisirais ensuite les trois meilleurs interprètes et les trois pires, et lancerais à nouveau les pièces, cette fois en demandant aux meilleurs de m'aider à transmettre les réponses aux pires. Les gens pouvaient facilement voir que les performances devraient s'améliorer et que cela n'aurait rien à voir avec la télépathie.

Ce que je demande, c'est comment en savoir plus sur ce "sens des données" , par le biais de publications sur le sujet, si elles existent, ou par ce que d'autres utilisateurs ont trouvé utile pour développer cette compétence. Je suis désolé si cette question doit être clarifiée; Si oui, veuillez poster vos questions! Merci.


Comment mentir avec les statistiques est un excellent point de départ.
MånsT

The Drunkard's Walk place également les statistiques dans un cadre accessible et de bon sens.
Marcus Morrisey

Réponses:


10

Je dirais d'abord que nous ne devrions pas faire de légères mathématiques. C'est un outil important dans le développement de la théorie statistique et les méthodes statistiques sont justifiées par la théorie. La théorie vous indique également ce qui ne va pas et quelles technologies pourraient être meilleures (par exemple plus efficaces). Je pense donc que la connaissance et la pensée mathématiques sont importantes (presque nécessaires) pour être un bon statisticien. Mais ce n'est certainement pas suffisant. Je pense que les livres référencés dans les commentaires sont bons. Permettez-moi d'en donner d'autres.

Donner du sens aux données: un guide pratique de l'analyse exploratoire des données et de l'exploration de données

Donner du sens aux données II: un guide pratique de la visualisation des données, des méthodes avancées d'exploration de données et des applications

Pensée statistique: améliorer la performance des entreprises

Le rôle de la statistique dans les entreprises et l'industrie

Une carrière en statistique: au-delà des chiffres

Les livres de Hahn et Snee sont particulièrement précieux et intéressants car ce sont des statisticiens industriels célèbres avec les compétences mathématiques et l'expérience pratique.


7
Merci pour les liens et commentaires. Je pense qu'en général, les réponses peuvent être améliorées en utilisant la [manuscript title](uri) réduction de lien . Après une longue journée, je trouve que trouver des réponses avec de longs hyperliens peut être inconsciemment discordant et pourrait malheureusement biaiser un lecteur contre une bonne réponse par ailleurs.
jthetzel

@jthetzel Je peux voir pourquoi il vaut mieux avoir un nom remplaçant l'url dans un lien. Quand j'aurai le temps, j'apprendrai à le faire. Je sais que c'est facile. Mais j'ai donné trois ou quatre liens. il ne faut presque pas de temps pour cliquer sur le lien et voir ce que c'est. donc je ne comprends pas vraiment pourquoi tant de membres de la communauté en font autant.
Michael R. Chernick

6

Dans l'exemple que vous mentionnez, le problème central est l'inférence causale. Un bon point de départ pour l'inférence causale est cette triple critique de livre par Andrew Gelman, et les livres qui y sont passés en revue. En plus de vous renseigner sur l'inférence causale, vous devez en savoir plus sur la valeur de l'analyse, de la description et de la prévision des données exploratoires.

J'ai appris énormément en entendant des spécialistes des sciences sociales critiquer leurs recherches respectives dans des travaux publiés, des blogs , des séminaires et des conversations personnelles - il existe de nombreuses façons d'apprendre. Suivez ce site et le blog d'Andrew Gelman.

Bien sûr, si vous voulez le sens des données, vous devez vous entraîner à travailler avec des données réelles. Il existe des compétences générales en matière de sens des données, mais il existe également un sens des données qui est spécifique à un domaine problématique, ou encore plus spécifiquement, un sens des données spécifique à un ensemble de données particulier.


5

Une belle ressource gratuite est le Wiki Chance News . Il contient de nombreux exemples tirés d'exemples réels ainsi qu'une discussion sur les bons et les mauvais points dans la façon dont les gens interprètent les données et les statistiques. Souvent, il y a aussi des questions de discussion (une partie de la motivation de la vue est de donner aux professeurs de statistiques des exemples réels à discuter avec les élèves).


5

+1 pour une grande question! (Et +1 à tous les répondeurs jusqu'à présent.)

Je pense que le sens des données existe beaucoup, mais je ne pense pas qu'il y ait quoi que ce soit de mystique. L'analogie que j'utiliserais concerne la conduite. Lorsque vous conduisez sur la route, vous savez simplement ce qui se passe avec les autres voitures. Par exemple, vous savez que le gars en face de vous cherche le panneau de signalisation où il est censé tourner, même s'il n'utilise pas son clignotant. Vous identifiez automatiquement le conducteur lent et trop prudent et anticipez comment il réagira dans différentes situations. Vous pouvez repérer l'adolescent qui veut juste courir aussi vite qu'il peut. Vous avez un sens basé sur la reconnaissance de ce que font toutes les voitures. C'est exactement la même chose que le sens des données. Cela vient de l'expérience, beaucoupd'expérience. Si vous en savez assez sur la théorie, il vous suffit de commencer à jouer avec de vrais ensembles de données. Vous pourriez être intéressé à explorer un site comme DASL . Cependant, une condition est que vous ne devez pas simplement acquérir de l'expérience dans le chargement d'un ensemble de données, l'exécution d'un test et l'obtention d'une valeur de p. Vous devrez explorer les données, les tracer probablement de différentes manières, adapter certains modèles et réfléchir à ce qui se passe. (Notez qu'EDA a été un fil conducteur ici.)

Un fait peut-être non évident à propos de ce processus est que le sens des données peut être localisé dans une zone d'actualité donnée. Par exemple, vous pourriez acquérir beaucoup d'expérience en travaillant avec des données expérimentales et des ANOVA, mais pas nécessairement avoir une bonne idée de ce qui se passe lorsque vous regardez des données de séries chronologiques ou des données de survie.

Permettez-moi d'ajouter une autre stratégie que j'ai trouvée extrêmement utile: je pense que cela vaut la peine d'apprendre un peu de programmation (statistique). Vous n'avez pas besoin d'être terriblement bon dans ce domaine (je suis connu pour avoir écrit du code "comiquement inefficace"). Cependant, une fois que vous pouvez écrire du code procédural de base (par exemple dans R), vous pouvez simuler . Il serait difficile pour moi de trop insister sur le fait que le fait de pouvoir effectuer des simulations, même très simples, peut aider. Une chose que vous pouvez utiliser pour cela, c'est qu'au cours de vos études, vous lisez des informations sur une propriété que vous pouvez explorer. Par exemple, si vous savez (abstraitement) qu'il est difficile de déterminer empiriquement si un modèle logit ou probit est meilleur pour un ensemble de données, vous pouvez coder des simulations simples de ceciet jouer avec eux pour mieux comprendre l'idée. Cela vous fournira également de l'expérience, mais d'un type légèrement différent, et vous aidera également à développer votre sens des données.


+1 Pour souligner la valeur de l'apprentissage à partir de simulations.
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.