Statistiques et Big Data missing-data

3

Comment effectuer une SVD pour imputer des valeurs manquantes, un exemple concret

J'ai lu les excellents commentaires sur la façon de traiter les valeurs manquantes avant d'appliquer SVD, mais j'aimerais savoir comment cela fonctionne avec un exemple simple: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Étant donné la matrice …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

1

Comment imputer une variable prédictive catégorielle manquante pour un modèle de forêt aléatoire?

J'ai un ensemble de données x, y que j'utilise pour construire une forêt aléatoire. Les données x sont un vecteur de valeurs qui inclut certaines NA. J'utilise donc rfImputepour gérer les données manquantes et créer une forêt aléatoire. Maintenant, j'ai une nouvelle observation invisible x (avec un NA) et je …

8 r random-forest missing-data

2

Application de la règle de Rubin pour combiner des ensembles de données à imputation multiple

J'espère mettre en commun les résultats d'un ensemble d'analyses assez basique effectué sur une multiplicité de données imputées (par exemple régression multiple, ANOVA). L'imputation multiple et les analyses ont été effectuées dans SPSS, mais SPSS ne fournit pas de résultats groupés pour quelques statistiques, y compris la valeur F, la …

8 spss missing-data multiple-imputation pooling

2

Comment gérer les données incomplètes dans Kalman Filter?

Quelles sont les approches typiques de traitement des données incomplètes dans le filtre de Kalman? Je parle de la situation où certains éléments du vecteur observé sont manquants, distinct du cas où un vecteur observé entier est manquant. Une autre manière de penser serait que la dimension du vecteur observé …

8 missing-data kalman-filter

2

Pourquoi un modèle statistique serait-il surchargé s'il était doté d'un énorme ensemble de données?

Mon projet actuel peut m'obliger à construire un modèle pour prédire le comportement d'un certain groupe de personnes. l'ensemble de données de formation ne contient que 6 variables (id est uniquement à des fins d'identification): id, age, income, gender, job category, monthly spend dans laquelle se monthly spendtrouve la variable …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

Avantages relatifs de l'imputation multiple et de la maximisation des attentes (EM)

J'ai un problème où y=a+by=a+by = a + b J'observe y, mais ni ni . Je veux estimeraaabbb b=f(x)+ϵb=f(x)+ϵb = f(x) + \epsilon Je peux estimer , en utilisant une sorte de modèle de régression. Cela me donne . Je pourrais alors estimeraaab^b^\hat b b^=f(x)+ϵb^=f(x)+ϵ\hat b = f(x) + \epsilon …

8 missing-data multiple-imputation expectation-maximization

2

Imputation avec des forêts aléatoires

J'ai deux questions sur l'utilisation de la forêt aléatoire (spécifiquement randomForest dans R) pour l'imputation des valeurs manquantes (dans l'espace des prédicteurs). 1) Comment fonctionne l'algorithme d'imputation - en particulier comment et pourquoi l'étiquette de classe est-elle requise pour l'imputation? la matrice de proximité qui sert à pondérer la valeur …

8 data-mining predictive-models missing-data random-forest data-imputation

2

Test post-hoc après mesures répétées à 2 facteurs ANOVA dans R?

J'ai des problèmes à trouver une solution concernant la façon d'exécuter un test post-hoc (Tukey HSD) après une ANOVA à mesures répétées à 2 facteurs (tous deux intra-sujets) en R. Pour l'ANOVA, j'ai utilisé la fonction aov: summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) Après avoir lu les réponses …

8 r anova repeated-measures post-hoc tukey-hsd goodness-of-fit curve-fitting sem latent-variable mplus anova post-hoc tukey-hsd markov-process image-processing r time-series causality granger-causality anova mixed-model lme4-nlme random-effects-model r matlab data-transformation multinomial notation estimation nonparametric logistic r missing-data multiple-imputation mice

1

Intervalles de confiance lors de l'utilisation du théorème de Bayes

Je calcule des probabilités conditionnelles et des intervalles de confiance à 95% associés. Pour bon nombre de mes cas, j'ai un décompte simple des xsuccès des nessais (à partir d'un tableau de contingence), donc je peux utiliser un intervalle de confiance binomial, tel que celui fourni par binom.confint(x, n, method='exact')dans …

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

1

Utiliser ARMA lorsque des données sont manquantes

J'utilise ARMA sur un ensemble de données avec des échantillons manquants. Comment les traiter? Souhaitez-vous suggérer de faire une interpolation linéaire / non linéaire ou simplement de les garder à l'écart et de considérer deux échantillons avec des données manquantes entre les deux comme échantillons consécutifs?

8 time-series arima missing-data fitting interpolation

2

Taux manquants et imputation multiple

Y a-t-il une limite qui est la moins acceptable lors de l'utilisation de l'imputation multiple (MI)? Par exemple, puis-je utiliser MI si les valeurs manquantes dans une variable représentent 20% des cas alors que d'autres variables ont des valeurs manquantes mais pas à un niveau aussi élevé?

8 missing-data data-imputation

4

La méthode de substitution moyenne pour remplacer les données manquantes est-elle obsolète?

La méthode de substitution moyenne pour remplacer les données manquantes est-elle obsolète? Y a-t-il des modèles plus sophistiqués à utiliser? Si c'est vrai, que sont-ils?

8 missing-data

1

Comment diminuer la perte d'informations des variables de décalage?

J'utilise un modèle de décalage distribué pour analyser les données d'une série chronologique. La durée de la période d'étude est de 18 ans, et l'observation est des données annuelles. Lorsqu'on inclut un effet de décalage d'un an, la première année de la variable de décalage devient manquante. Ensuite, un effet …

8 time-series missing-data

1

Quelle mesure de corrélation doit être utilisée avec un grand écart (données manquantes)?

J'essaie de corréler l'âge (6-90 ans) avec le volume de la voix (en dB). Cependant, mes données ne contiennent aucun point de données dans la plage de 20 à 50 ans. Quelle mesure de corrélation est la plus appropriée avec un écart aussi considérable, et pourquoi? J'utilise Kendall Tau jusqu'à …

8 distributions correlation missing-data

Questions marquées «missing-data»