Questions marquées «data-imputation»

Fait référence à une classe générale de méthodes utilisées pour «remplir» les données manquantes. Les méthodes utilisées pour ce faire sont généralement liées à l'interpolation (http://en.wikipedia.org/wiki/Interpolation) et nécessitent des hypothèses sur les raisons pour lesquelles les données sont manquantes (par exemple "manquant au hasard")

3
Un exemple: régression LASSO utilisant glmnet pour les résultats binaires
Je commence à me familiariser avec l’utilisation de glmnetavec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
R caret et NAs
Je préfère de beaucoup le caret pour sa capacité de réglage des paramètres et son interface uniforme, mais j'ai observé qu'il nécessite toujours des ensembles de données complets (c'est-à-dire sans NA) même si le modèle "nu" appliqué autorise les NA. C'est très gênant, car il faut appliquer des méthodes d'imputation …

4
Imputation des valeurs manquantes pour l'ACP
J'ai utilisé la prcomp()fonction pour effectuer une PCA (analyse des composants principaux) dans R. Cependant, il y a un bogue dans cette fonction, de sorte que le na.actionparamètre ne fonctionne pas. J'ai demandé de l'aide sur stackoverflow ; deux utilisateurs y ont proposé deux manières différentes de gérer les NAvaleurs. …

3
Comment combiner des intervalles de confiance pour une composante de variance d'un modèle à effets mixtes lors de l'utilisation de l'imputation multiple
La logique de l'imputation multiple (MI) consiste à imputer les valeurs manquantes non pas une fois mais plusieurs (généralement M = 5), ce qui donne M ensembles de données terminés. Les M ensembles de données complétés sont ensuite analysés avec des méthodes de données complètes sur lesquelles les estimations M …

5
Une sixième option de réponse («Je ne sais pas») a été ajoutée à une échelle de Likert à 5 points. Les données sont-elles perdues?
J'ai besoin d'un peu d'aide pour récupérer les données d'un questionnaire. Un de mes collègues a appliqué un questionnaire, mais par inadvertance, au lieu d'utiliser l'échelle originale de Likert en 5 points (fortement en désaccord à fortement d'accord), il a inséré une 6ème réponse dans l'échelle. Et, pour aggraver la …



3
Méthodes pour contourner le problème des données manquantes dans l'apprentissage automatique
Presque toutes les bases de données que nous voulons faire des prédictions à l'aide d'algorithmes d'apprentissage automatique trouveront des valeurs manquantes pour certaines caractéristiques. Il existe plusieurs approches pour résoudre ce problème, pour exclure les lignes qui ont des valeurs manquantes jusqu'à ce qu'elles se remplissent avec les valeurs moyennes …

5
Packages d'imputation KNN R
Je recherche un package d'imputation KNN. J'ai regardé le paquet d'imputation ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ) mais pour une raison quelconque, la fonction d'imputation KNN (même en suivant l'exemple de la description) semble seulement pour imputer des valeurs nulles (comme ci-dessous). J'ai regardé autour de moi, mais je ne trouve pas encore …

2
utiliser les informations du voisin pour imputer des données ou trouver des données hors-ligne (dans R)
J'ai un ensemble de données avec l'hypothèse que les voisins les plus proches sont les meilleurs prédicteurs. Juste un exemple parfait de gradient bidirectionnel visualisé- Supposons que nous ayons un cas où peu de valeurs manquent, nous pouvons facilement prédire en fonction des voisins et de la tendance. Matrice de …

5
Comment effectuer l'imputation de valeurs dans un très grand nombre de points de données?
J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


1
XGBoost peut gérer les données manquantes dans la phase de prévision
Récemment, j'ai examiné l'algorithme XGBoost et j'ai remarqué que cet algorithme peut gérer les données manquantes (sans nécessiter d'imputation) dans la phase de formation. Je me demandais si XGboost peut gérer les données manquantes (sans nécessiter d'imputation) quand il est utilisé pour prévoir de nouvelles observations ou s'il est nécessaire …



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.