Quels sont les bons exemples à montrer aux étudiants de premier cycle?


9

Je vais enseigner les statistiques en tant qu'assistant d'enseignement pour la seconde moitié de ce semestre aux étudiants de premier cycle orientés CS. La plupart des étudiants qui ont suivi le cours ne sont pas incités à apprendre le sujet et ne l'ont suivi que pour des exigences importantes. Je veux rendre le sujet intéressant et utile, pas seulement un cours qu'ils apprennent à réussir un B +.

En tant que doctorant en mathématiques pures, je savais peu de choses sur la réalité appliquée. Je veux demander des applications réelles des statistiques de premier cycle. Les exemples que je recherche sont ceux (en esprit) comme:

1) L'affichage du théorème de la limite centrale est utile pour certaines données de grands échantillons.

2) Fournir un contre-exemple que le théorème central limite n'est pas applicable (par exemple, ceux qui suivent la distribution de Cauchy).

3) Montrer comment fonctionne le test d'hypothèse dans des exemples célèbres de la vie réelle en utilisant le test Z, le test t ou quelque chose.

4) Montrer comment un surapprentissage ou une mauvaise hypothèse initiale pourrait donner de mauvais résultats.

5) Montrer comment la valeur de p et l'intervalle de confiance ont fonctionné dans des cas réels (bien connus) et où ils ne fonctionnent pas aussi bien.

6) De même, les erreurs de type I, de type II, la puissance statistique, le niveau de rejet , etc.α

Mon problème est que même si j'ai de nombreux exemples du côté des probabilités (tirage au sort, lancer de dés, ruine du joueur, martingales, marche aléatoire, paradoxe des trois prisonniers, problème de monty hall, méthodes de probabilité dans la conception d'algorithmes, etc.), je ne sais pas comme de nombreux exemples canoniques du côté des statistiques. Ce que je veux dire, ce sont des exemples sérieux et intéressants qui ont une certaine valeur pédagogique et qui ne sont pas fabriqués de manière extrêmement artificielle et qui semblent très détachés de la vie réelle. Je ne veux pas donner aux étudiants la fausse impression que le test Z et le test T sont tout. Mais à cause de mes connaissances en mathématiques, je ne connais pas suffisamment d'exemples pour rendre la classe intéressante et utile pour eux. Je cherche donc de l'aide.

Le niveau de mon élève est autour du calcul I et du calcul II. Ils ne peuvent même pas montrer que la variance de la normale normale est 1 par définition car ils ne savent pas comment évaluer le noyau gaussien. Donc, tout ce qui est légèrement théorique ou pratique (comme la distribution hypergéométrique, la loi de l'arcsin dans la marche aléatoire 1D) ne fonctionnera pas. Je veux montrer quelques exemples qu'ils peuvent comprendre non seulement "comment", mais aussi "pourquoi". Sinon, je ne sais pas si je prouverai ce que j'ai dit par intimidation.


2
Dans l'état actuel des choses, il semble un peu large et peu ciblé "certaines applications réelles des statistiques de premier cycle" ne conviennent pas particulièrement au format AQ. Au mieux, c'est une question de «grande liste». Si (3) seul peut être trop large et non focalisé, mais peut être un spectateur avec un peu de reformulation, et (4) peut se tenir assez bien seul avec un peu plus de concentration. (1) ne peut en aucun cas réussir, puisque le théorème central limite ne nous dit vraiment rien sur ce qui se passe à ou ou . Ce n'est pas un résultat à échantillon fini. n = 1000 n = 10 10n=100n=1000n=1010
Glen_b -Reinstate Monica

3
Le théorème de Berry-Esseen (que je suppose que vous n'enseignez pas à ce niveau) pourrait être utilisé avec des échantillons finis. De manière informelle, bien sûr, les moyennes d'échantillons de distributions particulières deviennent de plus en plus normales à mesure que la taille des échantillons augmente, mais nous ne pouvons pas vraiment dire "c'est le théorème central limite", car le CLT ne dit rien à ce sujet. De plus, pour montrer que les choses se rapprochent progressivement d'une distribution normale, vous avez besoin d'une séquence de tailles d'échantillon. Dans le monde réel, la collecte de données n'est courante que dans les données collectées au fil du temps (donc si vous supposez iid, vous pouvez avoir des difficultés).
Glen_b -Reinstate Monica

2
Il y a un ensemble réel de données (provenant d'une expérience - si artificielle) - 40000 lancers de pièces - liés d' ici
Glen_b -Reinstate Monica

1
Vous pouvez leur montrer comment les moyens d'échantillonnage se comportent dans des situations particulières avec l'augmentation de la taille de l'échantillon - c'est très utile; il n'est tout simplement pas strictement exact de l'attribuer au CLT. Les données tirées au sort peuvent être utiles pour cela (tout comme les données qu'elles génèrent elles-mêmes de manière similaire). Vous voudrez peut-être lire les informations sur le lien avant d'obtenir les données, car il y a une caractéristique importante des données (qui est également la motivation pour les collecter en premier lieu).
Glen_b -Reinstate Monica

1
Des exemples de presque tout ce que vous listez sont fournis dans de bons textes de statistiques d'introduction, tels que Freedman, Pisani et Purves . (J'ai lié à la troisième édition, que vous pouvez facilement trouver utilisée pour moins de 10 $ US. N'importe quelle édition fera l'affaire; la dernière édition peut avoir des exemples plus à jour.)
whuber

Réponses:


1

Une bonne façon peut être d'installer R ( http://www.r-project.org/ ) et d'utiliser ses exemples pour l'enseignement. Vous pouvez accéder à l'aide de R avec les commandes "? T.test", etc. À la fin de chaque fichier d'aide se trouvent des exemples. Pour t.test, par exemple:

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

entrez la description de l'image ici


1

Je suggère une application du théorème de la limite centrale pour la prédétermination d'une taille d'échantillon et la recherche d'une réponse à des questions comme "ai-je envoyé suffisamment de questionnaires", etc.

http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf fournit un bel exemple concret de la façon d'appliquer le théorème de la limite centrale. Une stratégie didactique pourrait être:

Une théorie

* clarifier la différence entre une distribution d'échantillonnage et la distribution d'une estimation, par exemple par la distribution "plate" du lancer d'un dé par rapport à la distribution de la moyenne de N dés (utilisez R ou laissez les élèves même jouer avec le dessin Excel seul) des distributions de valeurs par rapport à la distribution des moyennes)

* montrer le calcul basé sur une formule des centiles pour la distribution de la moyenne (comme vous êtes en profondeur dans les mathématiques, vous voudrez peut-être dériver la formule) - ce point correspond aux diapositives 10-17 dans la présentation liée ci-dessus

puis (comme dans la diapositive 20 de la présentation liée ci-dessus):

B) demande

* montrer comment le théorème de la limite centrale aide à déterminer la taille des échantillons pour une exactitude souhaitée dans les estimations de la moyenne

Cette application B) est ce que d'après mon expérience les non-statisticiens attendent d'un statisticien - répondant à des questions du type "ai-je assez de données?"


1

Puisque vous enseignez aux étudiants CS, une bonne application du théorème central limite peut être d'estimer la moyenne à partir d'un ensemble de données massives (c'est-à-dire> 100 millions d'enregistrements). Il peut être instructif de montrer qu'il n'est pas nécessaire de calculer la moyenne de l'ensemble de données, mais plutôt d'échantillonner à partir de l'ensemble de données et d'utiliser la moyenne de l'échantillon pour estimer la moyenne de l'ensemble de données / base de données. Vous pouvez aller plus loin si vous le souhaitez et simuler un ensemble de données qui a des valeurs radicalement différentes pour différents sous-groupes. Vous pourriez ensuite demander aux élèves d'explorer l'échantillonnage stratifié pour obtenir des estimations plus précises.

Encore une fois, comme il y a des étudiants CS, vous voudrez peut-être faire un amorçage pour obtenir également des intervalles de confiance ou pour estimer les variances de statistiques plus complexes. C'est une belle intersection des statistiques et de l'informatique car, à mon avis, cela pourrait conduire à un plus grand intérêt pour le sujet.


1

J'ai commencé par taper un commentaire mais c'est devenu trop long ...

σ

Donc, à mon avis, ils apprécieront si vous présentez l'inférence d'un point de vue "d'apprentissage", et si vous présentez des tests d'un point de vue "théorie de la décision" ou "classification" - en bref, ils sont supposés aimer les algorithmes. Pour grok algorithmes!

Essayez également de trouver des ensembles de données liés à CS; Par exemple, la durée des connexions et le nombre de demandes par unité de temps à un serveur html peuvent aider à illustrer de nombreux concepts.

Ils adoreront apprendre les techniques de simulation. Les générateurs Lehmer sont faciles à mettre en œuvre. Montrez-leur comment simuler d'autres distributions en inversant le cdf. Si vous êtes dans le coup, montrez-leur l'algorithme Ziggurat de Marsaglia. Oh, et le générateur MWC256 de Marsaglia est un petit bijou. Les tests Diehard de Marsaglia (tests d'équité des générateurs d'uniformes) peuvent aider à illustrer de nombreux concepts de probabilité et de statistiques. Vous pouvez même choisir de présenter une théorie des probabilités basée sur "des flux (indépendants) de doubles aléatoires, oups, je veux dire des réels" - c'est un peu effronté, mais cela peut être grand.

t

Si vous maîtrisez suffisamment votre sujet, n'hésitez pas à être original. Les conférences "classiques" sont acceptables lorsque vous enseignez quelque chose que vous ne connaissez pas bien. Bonne chance, et si vous publiez des notes de cours, faites-le moi savoir!


1

Vous dites que ce sont des étudiants en informatique. Quels sont leurs intérêts, est-ce principalement l'informatique théorique, ou les étudiants sont-ils principalement motivés par la préparation à l'emploi? Vous pouvez également nous dire quelle est la description du cours!

Mais, quelle que soit votre réponse à ces questions, vous pouvez commencer par des statistiques pratiques survenant dans des contextes informatiques, comme (par exemple) la conception de sites Web. Ce site a de temps en temps des questions à ce sujet, telles que les taux de conversion au fil du temps ou /stats/96853/comparing-sales-person-conversion-rates ou AB Test d'autres facteurs en plus du taux de conversion .

Il y a beaucoup de questions ici comme celles-ci, apparemment de personnes impliquées dans la conception de sites Web. La situation est que vous avez une page Web (par exemple, vous vendez quelque chose). Le "taux de conversion", si je comprends bien, est le pourcentage de visiteurs qui passent à une tâche préférée (comme l'achat, ou un autre objectif que vous avez pour vos visiteurs). Ensuite, vous, en tant que concepteur Web, demandez si votre disposition de la page influence ce comportement. Vous programmez donc deux (ou plus) versions de la page Web, choisissez au hasard la version à présenter à un nouveau client, et pouvez ainsi comparer les taux de conversion, et enfin choisissez d'implémenter la version avec le taux de conversion le plus élevé.

Il s'agit d'un problème de conception d'une expérience de comparaison, et vous avez besoin de méthodes statistiques pour comparer les pourcentages, ou peut-être directement le tableau de contingence des conceptions par rapport à convertir / pas de conversion. Cet exemple pourrait leur montrer que les statistiques pourraient en fait leur être utiles dans certains travaux de développement Web! Et, du côté statistique, cela ouvre de nombreuses questions intéressantes sur la validité des hypothèses ...

Pour vous connecter à ce que vous dites sur le théorème de la limite centrale, vous pouvez demander combien d'observations vous avez besoin avant de pouvoir traiter les pourcentages comme normalement distribués, et les faire étudier cela en utilisant la simulation ...

Vous pouvez rechercher sur ce site d'autres questions de statistiques posées par les types de programmeurs ...


-2

Je suggère qu'avant tout bon exemple, il vaut mieux se concentrer sur des définitions claires. D'après mon expérience, les probabilités et les statistiques de premier cycle sont un cours rempli de mots qu'aucun étudiant ne comprend. À titre d'expérience, demandez aux élèves qui viennent de terminer un cours de probabilité ce qu'est une «variable aléatoire». Ils pourraient vous donner des exemples, mais je doute que la plupart vous en donnent une définition claire. Qu'est-ce que la "probabilité" exactement? Qu'est-ce qu'une "distribution"? La terminologie en statistique est encore plus confuse. La plupart des livres de premier cycle que j'ai vus expliquent cela très mal. Les exemples et les calculs sont agréables, mais sans définitions claires, ce n'est pas aussi utile qu'on pourrait le penser. D'après mon expérience, c'est exactement pourquoi je détestais la théorie des probabilités en tant que premier cycle. Même si mes intérêts sont aussi éloignés de la probabilité que l'on peut avoir, j'apprécie maintenant le sujet, car j'ai finalement appris par moi-même ce que toute la terminologie signifie vraiment. Je m'excuse que ce n'est pas exactement ce que vous avez demandé, mais étant donné que vous enseignez une telle classe, j'ai pensé que ce serait un conseil utile.


1
Je ne suis pas sûr d'être d'accord - du moins pas dans la plupart / tous les cas. Pour certains, la compréhension conceptuelle peut, comme vous le suggérez, précéder l'application à des exemples particuliers, mais pour d'autres étudiants, la compréhension conceptuelle (en particulier pour des sujets compliqués) ne peut naître que par l'utilisation d'un exemple particulièrement éclairant.
jsakaluk

Lorsque j'étais étudiant de premier cycle, je n'avais généralement pas beaucoup de mal à lire les mathématiques aux cycles supérieurs et à résoudre les problèmes là-bas. Je savais ce que je faisais et ce que je devais faire. La théorie des probabilités, ou statistiques, est "plus facile" que les matières que j'apprenais. Mais je ne savais pas ce que je faisais ni pourquoi je devais le faire. Les manuels eux-mêmes m'ont été complètement inutiles. Après les avoir lus, je n'ai pas vraiment compris le vocabulaire. Bien sûr, je peux faire les calculs mais à la fin de la journée, je l'ai juste vu comme un sujet vide. Si j'avais cette confusion, al fortiorti, les étudiants non-maths inclinés aussi.
Nicolas Bourbaki

5
Je me demande si cela pourrait être un conseil plus utile pour enseigner probablement à des étudiants très brillants sur un diplôme de mathématiques pures que pour enseigner les statistiques appliquées aux majors CS.
Silverfish

@Silverfish Je ne sais pas si mes conseils ne s'appliquent qu'aux étudiants en mathématiques. On peut développer le langage de la théorie de la mesure et montrer comment la probabilité y est exprimée, sans entrer dans la théorie. Ce n'est vraiment pas différent du calcul de base. La plupart des livres définissent au moins leurs termes mais ils n'entrent pas dans leur théorie. Si les élèves ont compris que la statistique est le problème inverse de la probabilité et que, par exemple, nous nous «soucions» de la moyenne parce qu'elle se rapproche de la valeur attendue d'une variable aléatoire, alors ils peuvent l'apprécier beaucoup plus.
Nicolas Bourbaki
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.