Statistiques et Big Data predictive-models

15

Résultats des élections américaines 2016: qu'est-ce qui n'allait pas avec les modèles de prédiction?

D'abord c'était le Brexit , maintenant les élections américaines. De nombreuses prédictions de modèles ont été largement décalées et reste-t-il des leçons à tirer ici? Pas plus tard qu'hier, à 16 heures, heure de Paris, les marchés des paris étaient toujours favorables à Hillary 4 à 1. Je suppose que …

108 predictive-models ensemble confounding

5

Différences entre validation croisée et amorçage pour estimer l'erreur de prédiction

J'aimerais connaître votre avis sur les différences entre la validation croisée et l’amorçage pour estimer l’erreur de prédiction. Est-ce qu'on travaille mieux pour de petites tailles de données ou de grands ensembles de données?

103 cross-validation predictive-models bootstrap

6

Différence entre les intervalles de confiance et les intervalles de prédiction

Pour un intervalle de prédiction en régression linéaire vous utilisez encore E [ Y | x ] = ^ ß 0 + β 1 x pour générer l'intervalle. Vous l'utilisez également pour générer un intervalle de confiance de E [ Y | x 0 ] . Quelle est la différence …

80 regression confidence-interval predictive-models prediction-interval

8

Générer une variable aléatoire avec une corrélation définie avec une ou plusieurs variables existantes

Pour une étude de simulation , je dois générer des variables aléatoires qui montrent une corrélation prefined (population) à une variable existante .YYY J'ai examiné les Rpackages copulaet ceux CDVinequi peuvent produire des distributions multivariées aléatoires avec une structure de dépendance donnée. Cependant, il n'est pas possible de fixer l'une …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

15

Réflexions pratiques sur la modélisation explicative par rapport à la modélisation prédictive

En avril, j'ai assisté à une conférence intitulée "Expliquer ou prédire?" Lors de la série de séminaires du groupe de statistiques du département de mathématiques de l'UMD. La conférence a été donnée par le professeur Galit Shmueli, qui enseigne à la Smith Business School de l'UMD. Son exposé s'appuyait sur …

70 predictive-models

8

Comment puis-je m'assurer que les données de test ne fuient pas dans les données d'entraînement?

Supposons que quelqu'un construise un modèle prédictif, mais que quelqu'un ne connaisse pas nécessairement les principes appropriés des statistiques ou de l'apprentissage automatique. Peut-être aidons-nous cette personne dans son apprentissage, ou peut-être utilise-t-elle une sorte de progiciel dont l'utilisation requiert un minimum de connaissances. Maintenant, cette personne pourrait très bien …

60 machine-learning classification predictive-models cross-validation out-of-sample

3

Les variables sont souvent ajustées (par exemple normalisées) avant de créer un modèle - quand est-ce une bonne idée et quand est-ce une mauvaise?

Dans quelles circonstances voudriez-vous ou ne voudriez-vous pas mettre à l'échelle ou normaliser une variable avant l'ajustement du modèle? Et quels sont les avantages / inconvénients de la mise à l'échelle d'une variable?

57 modeling predictive-models feature-selection theory standardization

6

Alternatives à la régression logistique dans R

Je voudrais autant d’algorithmes effectuant la même tâche que la régression logistique. Ce sont des algorithmes / modèles qui peuvent donner une prédiction à une réponse binaire (Y) avec une variable explicative (X). Je serais heureux si, après avoir nommé l'algorithme, vous montriez également comment l'implémenter dans R. Voici un …

55 r regression logistic classification predictive-models

5

Est-ce une bonne idée d’ajuster les valeurs p dans une régression multiple pour des comparaisons multiples?

Supposons que vous êtes un chercheur en sciences sociales / économétrique qui essaie de trouver des prédicteurs pertinents de la demande d'un service. Vous avez 2 variables de résultat / variables dépendantes décrivant la demande (en utilisant le service oui / non et le nombre d'occasions). Vous avez 10 variables …

54 regression multivariate-analysis predictive-models multiple-regression multiple-comparisons

5

Quand le déséquilibre des données pose-t-il vraiment un problème dans le Machine Learning?

Nous avions déjà plusieurs questions sur les données déséquilibrées lors de l'utilisation de la régression logistique , de la SVM , des arbres de décision , de la mise en sac et de plusieurs autres questions similaires, ce qui en fait un sujet très populaire! Malheureusement, chacune des questions semble …

53 machine-learning classification predictive-models unbalanced-classes

3

Interprétation du prédicteur et / ou de la réponse transformé par log

Je me demande si cela fait une différence d'interprétation si seules les variables dépendantes, indépendantes et dépendantes, ou uniquement les variables indépendantes sont transformées par un journal. Considérons le cas de log(DV) = Intercept + B1*IV + Error Je peux interpréter l'IV comme l'augmentation en pourcentage, mais comment cela change-t-il …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

1

calculé manuellement ne correspond pas à randomForest () pour tester de nouvelles données

Je sais que cette question est assez spécifique R, mais je pense peut-être à la variance des proportions expliquée, , de manière incorrecte. Voici.R2R2R^2 J'essaie d'utiliser le Rpaquet randomForest. J'ai des données d'entraînement et des données de test. Lorsque j'adapte un modèle de forêt aléatoire, la randomForestfonction vous permet de …

38 r correlation predictive-models random-forest r-squared

3

Variance des estimations de validation croisée multipliées par sous la forme : quel est le rôle de la «stabilité»?

TL, DR: Il semble que, contrairement aux conseils répétés, la validation croisée "une fois (LOO-CV)" (laissez-passer une fois) - c’est-à-direun CVfois, avec(le nombre de plis) égal à(le d’observations d’entraînement) - fournit des estimations de l’erreur de généralisation qui sont la moindre variable pour tout, et non la plus variable, en …

37 regression machine-learning variance cross-validation predictive-models

2

Quand et comment utiliser des variables explicatives normalisées dans la régression linéaire

J'ai 2 questions simples sur la régression linéaire: Quand est-il conseillé de normaliser les variables explicatives? Une fois que l'estimation est réalisée avec des valeurs normalisées, comment peut-on prévoir avec de nouvelles valeurs (comment normaliser les nouvelles valeurs)? Quelques références seraient utiles.

37 regression predictive-models references standardization predictor

5

Comment gérer un modèle de prédiction «autodestructeur»?

Je regardais une présentation d'un spécialiste du blanchiment d'argent chez un grand détaillant, où ils avaient développé un modèle permettant de prévoir les événements de rupture de stock. Supposons un instant que, avec le temps, leur modèle devienne très précis, ne serait-il pas en quelque sorte "autodestructeur"? Autrement dit, si …

36 machine-learning predictive-models

Questions marquées «predictive-models»