Statistiques et Big Data modeling

9

Exagérons-nous l’importance des hypothèses et de l’évaluation des modèles à une époque où les analyses sont souvent effectuées par des non-spécialistes?

En bout de ligne , plus j'en apprends sur les statistiques, moins je me fie aux articles publiés dans mon domaine; Je crois simplement que les chercheurs ne font pas assez bien leurs statistiques. Je suis un profane, pour ainsi dire. J'ai une formation en biologie mais je n'ai aucune …

54 mathematical-statistics multiple-regression modeling

5

Comprendre les régressions - le rôle du modèle

Comment utiliser un modèle de régression si vous ne connaissez pas la fonction pour laquelle vous essayez d'obtenir les paramètres? J'ai vu une recherche qui disait que les mères qui allaitaient leurs enfants étaient moins susceptibles de souffrir de diabète plus tard dans la vie. La recherche a été réalisée …

46 regression modeling epidemiology log-linear

8

Tous les modèles sont-ils inutiles? Un modèle exact est-il possible - ou utile?

Cette question me hante depuis plus d'un mois. Le numéro de février 2015 d' Amstat News contient un article du professeur Berkeley, Mark van der Laan, qui réprimande les gens pour l'utilisation de modèles inexacts. Il déclare qu'en utilisant des modèles, la statistique est alors un art plutôt qu'une science. …

45 machine-learning maximum-likelihood modeling nonparametric parametric

4

Aide-mémoire des modèles statistiques

Je me demandais s'il existe un modèle statistique "aide-mémoire" qui répertorie des informations supplémentaires: quand utiliser le modèle quand ne pas utiliser le modèle entrées obligatoires et optionnelles résultats attendus Le modèle a-t-il été testé dans différents domaines (politique, bio, ingénierie, fabrication, etc.)? est-ce accepté en pratique ou en recherche? …

44 references modeling

2

Comprendre les paramètres de la distribution binomiale négative

J'essayais d'adapter mes données à différents modèles et j'ai compris que la fitdistrfonction de la bibliothèque MASSde Rme donnait Negative Binomialle meilleur ajustement. Maintenant, à partir de la page wiki , la définition est donnée comme suit: La distribution de NegBin (r, p) décrit la probabilité de k échecs et …

37 r distributions modeling negative-binomial

7

Choix de variables à inclure dans un modèle de régression linéaire multiple

Je travaille actuellement à la construction d'un modèle utilisant une régression linéaire multiple. Après avoir manipulé mon modèle, je ne sais pas comment déterminer au mieux les variables à conserver et celles à supprimer. Mon modèle a commencé avec 10 prédicteurs pour le DV. Lors de l'utilisation des 10 prédicteurs, …

35 regression multiple-regression feature-selection modeling model-selection

5

Quelles sont les meilleures pratiques pour identifier les effets d'interaction?

Autre que de tester littéralement chaque combinaison possible de variable (s) dans un modèle ( x1:x2ou x1*x2 ... xn-1 * xn). Comment identifiez-vous si une interaction DEVRAIT ou PEUT exister entre vos variables indépendantes (espérons-le)? Quelles sont les meilleures pratiques pour tenter d'identifier les interactions? Existe-t-il une technique graphique que …

35 regression modeling interaction

3

Comment adapter un modèle ARIMAX avec R?

J'ai quatre séries chronologiques différentes de mesures horaires: La consommation de chaleur à l'intérieur d'une maison La température à l'extérieur de la maison Le rayonnement solaire La vitesse du vent Je veux pouvoir prédire la consommation de chaleur à l'intérieur de la maison. Il y a une nette tendance saisonnière, …

33 time-series modeling arima

1

Question de régression binomiale négative - est-ce un mauvais modèle?

Je lis un article très intéressant de Sellers et Shmueli sur les modèles de régression pour les données de comptage. Vers le début (p. 944), ils citent McCullaugh et Nelder (1989) disant que la régression binomiale négative est impopulaire et a un lien canonique problématique. J'ai trouvé le passage référé …

31 regression modeling negative-binomial

3

Pourquoi la sélection des variables est-elle nécessaire?

Les procédures courantes de sélection des variables basées sur les données (par exemple, avant, arrière, pas à pas, tous les sous-ensembles) ont tendance à produire des modèles avec des propriétés indésirables, notamment: Coefficients biaisés loin de zéro. Erreurs standard trop petites et intervalles de confiance trop étroits. Testez les statistiques …

31 modeling feature-selection

2

Quel est le modèle statistique derrière l'algorithme SVM?

J'ai appris que lorsque l'on traite des données à l'aide d'une approche basée sur un modèle, la première étape consiste à modéliser la procédure de données comme un modèle statistique. Ensuite, l'étape suivante consiste à développer un algorithme d'inférence / apprentissage efficace / rapide basé sur ce modèle statistique. Je …

28 machine-learning svm modeling

5

Différence entre les réseaux bayésiens et le processus de Markov?

Quelle est la différence entre un réseau bayésien et un processus de Markov? Je croyais comprendre les principes des deux, mais maintenant, quand j'ai besoin de comparer les deux, je me sens perdu. Ils signifient presque la même chose pour moi. Ils ne le sont certainement pas. Les liens vers …

28 bayesian references modeling markov-process bayesian-network

1

Calcul de la répétabilité des effets d'un modèle lmer

Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

Une interaction est-elle possible entre deux variables continues?

Toutes mes variables sont continues. Il n'y a pas de niveaux. Est-il possible d' avoir même une interaction entre les variables?

27 regression modeling interaction

6

Comment choisir entre le ROC AUC et le score F1?

J'ai récemment terminé un concours Kaggle dans lequel le score roc auc a été utilisé conformément aux exigences du concours. Avant ce projet, j'utilisais normalement le score f1 comme mesure pour mesurer les performances du modèle. À l'avenir, je me demande comment dois-je choisir entre ces deux mesures? Quand les …

26 machine-learning modeling roc scoring-rules

Questions marquées «modeling»