Trucs et astuces pour commencer la modélisation statistique?

10

Je travaille dans le domaine de l'exploration de données et j'ai eu très peu de formation formelle en statistique. Dernièrement, j'ai lu beaucoup de travaux qui se concentrent sur les paradigmes bayésiens pour l'apprentissage et l'exploitation minière, ce que je trouve très intéressant.

Ma question est (en plusieurs parties), étant donné un problème, existe-t-il un cadre général par lequel il est possible de construire un modèle statistique? Quelles sont les premières choses que vous faites lorsque vous disposez d'un ensemble de données dont vous souhaitez modéliser le processus sous-jacent? Existe-t-il de bons livres / tutoriels qui expliquent ce processus ou est-ce une question d'expérience? L'inférence est-elle au premier plan de votre esprit lors de la construction de votre modèle ou visez-vous d'abord à décrire les données avant de vous soucier de la façon de les utiliser pour calculer?

Toute idée serait grandement apprécié! Merci.

— Nick
source

4

Salut Nick - bienvenue sur CV. Votre question est très large; vous aurez peut-être plus de chance d'obtenir de bonnes réponses si vous les divisez en questions plus petites (et une fois que vous le faites, vous pouvez constater que certaines d'entre elles ont déjà été répondues ici). Au minimum, cependant, vous devez marquer votre question comme "wiki communautaire". Cela signifie essentiellement qu'au lieu du format habituel de réponses concurrentes ici, toutes les réponses dans leur ensemble seront considérées comme la réponse.

— Matt Parker

1

@Matt La case à cocher CW n'apparaît plus pour une question. Un mod devra marquer une question comme CW selon les besoins.

@ Nick..Je suis nouveau aussi. Je pense qu'une chose générale et la chose la plus importante que l'on doit garder dans la chose est comment voulez-vous décrire votre variable de sortie .. est-ce continu, est-il binaire? Parce qu'à la fin de la journée, vous voulez observer / modéliser une variable de sortie. La prochaine chose que je pense serait de savoir comment modéliser la variable requise. Les choses qui viendraient alors, c'est que si la variable est dichotomique, la procédure est un modèle logit. diverses questions que l'on rencontre .. J'espère que cela a du sens.

— ayush biyani

6

Dans Statistics, comme dans Data Mining, vous commencez avec des données et un objectif. Dans les statistiques, l'accent est mis sur l'inférence, c'est-à-dire la réponse aux questions au niveau de la population à l'aide d'un échantillon. Dans l'exploration de données, l'accent est généralement mis sur la prédiction: vous créez un modèle à partir de votre échantillon (données d'entraînement) afin de prédire les données de test.

Le processus statistique est alors:

Explorez les données à l'aide de résumés et de graphiques - selon la façon dont le statisticien s'appuie sur les données, certains seront plus ouverts d'esprit, en regardant les données sous tous les angles, tandis que d'autres (en particulier les spécialistes des sciences sociales) examineront les données à travers la lentille du question d'intérêt (p. ex., tracer en particulier les variables d'intérêt et pas les autres)
1. Choisissez une famille de modèles statistiques appropriée (par exemple, régression linéaire pour un Y continu, régression logistique pour un Y binaire ou Poisson pour les données de comptage) et effectuez la sélection du modèle
2. Estimer le modèle final
3. Testez les hypothèses du modèle pour vous assurer qu'elles sont raisonnablement remplies (différent des tests de précision prédictive dans l'exploration de données)
4. Utilisez le modèle pour l'inférence - c'est l'étape principale qui diffère de l'exploration de données. Le mot "p-value" arrive ici ...

Jetez un œil à n'importe quel manuel de statistiques de base et vous trouverez un chapitre sur l'analyse des données exploratoires suivi de quelques distributions (qui aideront à choisir des modèles d'approximation raisonnables), puis des inférences (intervalles de confiance et tests d'hypothèse) et des modèles de régression.

Je vous ai décrit le processus statistique classique. Cependant, j'ai beaucoup de problèmes avec cela. L'accent mis sur l'inférence a complètement dominé les domaines, tandis que la prédiction (qui est extrêmement importante et utile) a été presque négligée. De plus, si vous regardez comment les spécialistes des sciences sociales utilisent les statistiques pour l'inférence, vous constaterez qu'ils les utilisent très différemment! Vous pouvez en savoir plus à ce sujet ici

— Galit Shmueli
source

2

En ce qui concerne les livres, "The Elements of Statistical Learning" de Hastie, Tibshirani et Friedman est très bon.

Le livre complet est disponible sur le site Web des auteurs ; vous voudrez peut-être jeter un coup d'œil pour voir si cela convient à vos besoins.

— NPE
source

2

En ce qui concerne les références (en ligne), je recommanderais de consulter les diapositives du didacticiel d'Andrew Moore sur l'exploration de données statistiques .

Il existe de nombreux manuels sur l'exploration de données et l'apprentissage automatique; peut-être un bon point de départ est les principes de l'exploration de données , par Hand et al., et l' introduction à l'apprentissage automatique , par Alpaydin.

— chl
source

1

Le meilleur livre d'introduction bayésien que j'ai trouvé est Data Analysis - A Bayesian Tutorial . C'est assez pratique.

— John Salvatier
source