Un cours de conception expérimentale pour les mineurs de données


11

Je suis un informaticien travaillant dans l'exploration de données. Ce n'est pas un secret pour dire que les informaticiens sont assez faibles pour faire une conception expérimentale systématique et une évaluation - l'utilisation des valeurs de p et des estimations de confiance est considérée comme avancée :).

Ce que j'aimerais savoir s'il existe de bons cours / matériels pour enseigner aux informaticiens une bonne conception expérimentale. Pour rendre cela plus précis, j'ajouterai les informations suivantes:

  • Le cours devrait être destiné aux étudiants diplômés qui peuvent être supposés avoir une compréhension raisonnable de la probabilité, mais une formation limitée en statistiques.
  • Le cours devrait se concentrer sur la conception expérimentale dans des «contextes non naturels non contrôlés»: en d'autres termes, il n'y a ni vérité fondamentale sous-jacente ni moyen de contrôler le processus de collecte de données (comme avec les sujets humains). Bien sûr, un bon cours se concentrera sur les fondamentaux, mais il devrait traiter ce scénario de manière significative.
  • Un élément de calcul serait un bonus mais n'est pas obligatoire. Nous traitons de nombreuses données, mais nous pouvons résoudre nous-mêmes les problèmes de calcul si nécessaire.

1
Toutes les conditions de l'expérience que vous décrivez me rappellent les tests A / B ... coïncidence? :)
steffen

Réponses:


5

[Noah Smith] [1] et [David Smith] [2] ont offert un cours il y a quelque temps à JHU avec des motivations similaires.

Contour:

  • Cours 1: introduction, revue des statistiques, tests d'hypothèses, échantillonnage
  • Cours 2: statistiques d'intérêt: moyennes, quantiles, variance
  • Cours 3–4: expériences avec runtime et “espace”
  • Conférence 5: analyse exploratoire des données
  • Cours 6: modélisation paramétrique, régression et classification
  • Conférence 7: débogage statistique et profilage
  • Conférence 8: résumé et examen

Pour plus de détails, voir Méthodes de recherche empirique en informatique (600.408) http://www.cs.jhu.edu/~nasmith/erm/



3

Bonne question. J'ai hâte de voir les réponses.

D'un point de vue statistique, deux questions doivent être abordées: la plupart des statistiques et des conceptions statistiques traitent de statistiques sur de petits échantillons et la plupart des méthodologies utilisées par les ingénieurs ne sont pas des statistiques "modernes".

Je n'ai pas de suggestion immédiate pour le premier problème au-delà d'une bonne scolarité en exploration / exploration de données et la signification de statistiquement différent face à l'analyse des statistiques de population (ou d'un grand échantillon).

Cependant, deux livres intéressants pour initier les étudiants aux statistiques proviendraient de Rand Wilcox (un psychologue):

Wilcox, RR (2012). Introduction to Robust Estimation and Hypothesis Testing, 3e éd. Presse académique.

Wilcox, RR (2010). Fondements des méthodes statistiques modernes: amélioration substantielle de la puissance et de la précision, Springer, 2e éd.


2
Il me semble que le premier problème concerne la recherche et qu'il ne dispose peut-être pas encore de «meilleures pratiques». Il se pourrait très bien qu'une bonne introduction aux tests de base et au forage dans le problème des hypothèses multiples soit le meilleur point de départ.
Suresh Venkatasubramanian
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.