Questions marquées «scikit-learn»

Une bibliothèque d'apprentissage automatique pour Python. Utilisez cette balise pour toute question sur le sujet qui (a) implique scikit-learn en tant que partie critique de la question ou de la réponse attendue, et (b) ne se limite pas à la façon d'utiliser scikit-learn.


1
R / mgcv: Pourquoi les produits tenseurs te () et ti () produisent-ils des surfaces différentes?
Le mgcvpackage pour Ra deux fonctions pour ajuster les interactions des produits tensoriels: te()et ti(). Je comprends la division de base du travail entre les deux (ajustement d'une interaction non linéaire vs décomposition de cette interaction en effets principaux et interaction). Ce que je ne comprends pas, c'est pourquoi te(x1, …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 



4
Analyse et régression des composants principaux en Python
J'essaie de comprendre comment reproduire en Python certains travaux que j'ai faits en SAS. En utilisant cet ensemble de données , où la multicollinéarité est un problème, je voudrais effectuer une analyse des composants principaux en Python. J'ai regardé scikit-learn et les modèles de statistiques, mais je ne sais pas …



1
Prédiction probabiliste de forêt aléatoire vs vote majoritaire
Scikit learn semble utiliser la prédiction probabiliste au lieu du vote majoritaire pour la technique d'agrégation du modèle sans expliquer pourquoi (1.9.2.1. Forêts aléatoires). Y a-t-il une explication claire pourquoi? De plus, existe-t-il un bon article ou article de synthèse sur les différentes techniques d'agrégation de modèles pouvant être utilisées …

2
La sortie de Scikit SVM dans la classification multiclasse donne toujours la même étiquette
J'utilise actuellement Scikit learn avec le code suivant: clf = svm.SVC(C=1.0, tol=1e-10, cache_size=600, kernel='rbf', gamma=0.0, class_weight='auto') puis ajuster et prévoir pour un ensemble de données avec 7 étiquettes différentes. J'ai une sortie bizarre. Quelle que soit la technique de validation croisée que j'utilise, l'étiquette prédite sur l'ensemble de validation sera …

1
Comment intégrer une valeur aberrante innovante à l'observation 48 dans mon modèle ARIMA?
Je travaille sur un ensemble de données. Après avoir utilisé certaines techniques d'identification de modèle, je suis sorti avec un modèle ARIMA (0,2,1). J'ai utilisé la detectIOfonction dans le package TSAen R pour détecter une valeur aberrante innovante (IO) à la 48e observation de mon ensemble de données d'origine. Comment …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
Quelle est la différence entre fonction_décision, fonction_prédire et fonction de prédiction pour un problème de régression logistique?
J'ai parcouru la documentation sklearn mais je ne suis pas en mesure de comprendre le but de ces fonctions dans le contexte de la régression logistique. Car decision_functionil dit que c'est la distance entre l'hyperplan et l'instance de test. comment cette information particulière est-elle utile? et comment cela ne se …

2
Index Rand ajusté vs informations mutuelles ajustées
J'essaie d'évaluer les performances de clustering. Je lisais la documentation skiscit-learn sur les métriques . Je ne comprends pas la différence entre ARI et AMI. Il me semble qu'ils font la même chose de deux manières différentes. Citant de la documentation: Compte tenu de la connaissance des affectations de classe …

3
Identification des fonctionnalités filtrées après la sélection des fonctionnalités avec scikit learn
Voici mon code pour la méthode de sélection des fonctionnalités en Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Mais après avoir obtenu un nouveau X (variable dépendante - …

2
Implémentation de la validation croisée imbriquée
J'essaie de comprendre si ma compréhension de la validation croisée imbriquée est correcte, j'ai donc écrit cet exemple de jouet pour voir si j'ai raison: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 …

1
Les forêts aléatoires peuvent-elles faire beaucoup mieux que l'erreur de test de 2,8% sur MNIST?
Je n'ai trouvé aucune documentation sur l'application des forêts aléatoires au MNIST, au CIFAR, au STL-10, etc., alors j'ai pensé les essayer moi-même avec le MNIST invariant par permutation . Dans R , j'ai essayé: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Cela a fonctionné pendant 2 heures et a obtenu une …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.