Questions marquées «scikit-learn»

Une bibliothèque d'apprentissage automatique pour Python. Utilisez cette balise pour toute question sur le sujet qui (a) implique scikit-learn en tant que partie critique de la question ou de la réponse attendue, et (b) ne se limite pas à la façon d'utiliser scikit-learn.

3
Différence entre le modèle statistique OLS et la régression linéaire scikit
J'ai une question sur deux méthodes différentes de bibliothèques différentes qui semblent faire le même travail. J'essaie de faire un modèle de régression linéaire. Voici le code que j'utilise la bibliothèque statsmodel avec OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) …

2
Utilisation de la validation croisée imbriquée
La page de Scikit Learn sur la sélection de modèles mentionne l'utilisation de la validation croisée imbriquée: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Deux boucles de validation croisée sont effectuées en parallèle: l'une par l'estimateur GridSearchCV pour définir le gamma et l'autre par cross_val_score pour …




5
Comment effectuer l'imputation de valeurs dans un très grand nombre de points de données?
J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


1
Interprétation de sortie de Scikit Predict_Proba
Je travaille avec la bibliothèque scikit-learn en python. Dans le code ci-dessous, je prédis la probabilité mais je ne sais pas lire la sortie. Test des données from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) Fractionner l'ensemble de données X_train, X_test, y_train, …

2
Est-il possible d'évaluer GLM en Python / scikit-learn en utilisant les distributions de Poisson, Gamma ou Tweedie comme famille pour la distribution d'erreur?
J'essaie d'apprendre un peu Python et Sklearn, mais pour mon travail, j'ai besoin d'exécuter des régressions qui utilisent des distributions d'erreur des familles Poisson, Gamma et surtout Tweedie. Je ne vois rien dans la documentation à leur sujet, mais ils se trouvent dans plusieurs parties de la distribution R, donc …



1
Pourquoi un grand choix de K réduit-il mon score de validation croisée?
En jouant avec le Boston Housing Dataset et RandomForestRegressor(avec les paramètres par défaut) dans scikit-learn, j'ai remarqué quelque chose d'étrange: le score moyen de validation croisée a diminué lorsque j'ai augmenté le nombre de plis au-delà de 10. Ma stratégie de validation croisée était la suivante: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) …

1
Différence entre ElasticNet en scythit-learn Python et Glmnet en R
Quelqu'un a-t-il essayé de vérifier si l'ajustement d'un modèle Elastic Net avec ElasticNetin scikit-learn en Python et glmneten R sur le même ensemble de données produit des résultats arithmétiques identiques? J'ai expérimenté de nombreuses combinaisons de paramètres (car les deux fonctions diffèrent dans les valeurs par défaut qu'elles transmettent aux …

2
Quelles sont les différences entre la régression Ridge en utilisant glmnet de R et scikit-learn de Python?
Je passe par la section LAB §6.6 sur Ridge Regression / Lasso dans le livre 'An Introduction to Statistical Learning with Applications in R' de James, Witten, Hastie, Tibshirani (2013). Plus précisément, j'essaie d'appliquer le Ridgemodèle scikit-learn au jeu de données «Hitters» du package R «ISLR». J'ai créé le même …

1
Pour quel type de sélection de fonctionnalités le test du chi carré peut-il être utilisé?
Ici, je demande ce que les autres font couramment pour utiliser le test du chi carré pour la sélection des fonctionnalités par rapport au résultat de l'apprentissage supervisé. Si je comprends bien, testent-ils l'indépendance entre chaque fonctionnalité et le résultat, et comparent-ils les valeurs de p entre les tests pour …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.