Lorsque les données présentent un manque d'informations (lacunes), c'est-à-dire qu'elles ne sont pas complètes. Par conséquent, il est important de prendre en compte cette fonctionnalité lors d'une analyse ou d'un test.
J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = …
J'essaie de détecter des valeurs anormales dans une série chronologique de données climatiques avec quelques observations manquantes. En cherchant sur le Web, j'ai trouvé de nombreuses approches disponibles. Parmi ceux-ci, la décomposition stl semble attrayante, dans le sens de supprimer les composantes de tendance et saisonnières et d'étudier le reste. …
Il y a une variable dans mes données qui ont 80% de données manquantes. Les données sont manquantes en raison de leur inexistence (c'est-à-dire du montant du prêt bancaire que l'entreprise doit). Je suis tombé sur un article disant que la méthode d'ajustement variable factice est la solution à ce …
Ma question porte sur les techniques de traitement des données incomplètes lors de la formation / ajustement du classificateur / modèle. Par exemple, dans un ensemble de données avec quelques centaines de lignes, chaque ligne ayant disons cinq dimensions et une étiquette de classe comme dernier élément, la plupart des …
J'ai cet énorme ensemble de données avec comme 2500 variables et comme 142 observations. Je veux exécuter une corrélation entre la variable X et le reste des variables. Mais pour de nombreuses colonnes, il manque des entrées. J'ai essayé de le faire dans R en utilisant l'argument "pairwise-complete" ( use=pairwise.complete.obs) …
J'utilise "glmnet" pour la régression au lasso dans GWAS. Certaines variantes et certains individus ont des valeurs manquantes et il semble que glmnet ne puisse pas gérer les valeurs manquantes. Existe-t-il une solution à ça? ou existe-t-il un autre package qui peut gérer les valeurs manquantes dans la régression au …
J'ai essayé une méthode de prévision et je veux vérifier si ma méthode est correcte ou non. Mon étude compare différents types de fonds communs de placement. Je veux utiliser l'indice GCC comme référence pour l'un d'entre eux mais le problème est que l'indice GCC s'est arrêté en septembre 2011 …
Je n'ai jamais vraiment trouvé de bon texte ou d'exemples sur la façon de gérer les données «inexistantes» pour les entrées de n'importe quel classificateur. J'ai beaucoup lu sur les données manquantes mais que peut-on faire sur les données qui ne peuvent pas exister ou qui n'existent pas par rapport …
J'ai le problème suivant: - Nous avons défini N personnes - Nous avons défini K images - Chaque personne évalue un certain nombre d'images. Une personne peut aimer ou ne pas aimer une image (ce sont les deux seules possibilités). - Le problème est de savoir comment calculer la probabilité …
Récemment, j'ai examiné l'algorithme XGBoost et j'ai remarqué que cet algorithme peut gérer les données manquantes (sans nécessiter d'imputation) dans la phase de formation. Je me demandais si XGboost peut gérer les données manquantes (sans nécessiter d'imputation) quand il est utilisé pour prévoir de nouvelles observations ou s'il est nécessaire …
Le mgcvpackage pour Ra deux fonctions pour ajuster les interactions des produits tensoriels: te()et ti(). Je comprends la division de base du travail entre les deux (ajustement d'une interaction non linéaire vs décomposition de cette interaction en effets principaux et interaction). Ce que je ne comprends pas, c'est pourquoi te(x1, …
J'ai un problème avec la 2l.normméthode d'imputation multiniveau dans mice. Malheureusement, je ne peux pas publier d'exemple reproductible en raison de la taille de mes données - lorsque je réduis la taille, le problème disparaît. Pour une variable particulière, micegénère les erreurs et avertissements suivants: Error in chol.default(inv.sigma2[class] * X.SS[[class]] …
La pondération basée sur la précision est-elle au cœur de la méta-analyse? Borenstein et al. (2009) écrivent que pour qu'une méta-analyse soit possible, il suffit que: Les études rapportent une estimation ponctuelle qui peut être exprimée sous la forme d'un nombre unique. La variance peut être calculée pour cette estimation …
Je me demande si quelqu'un pourrait donner un aperçu de la raison pour laquelle l'imputation des données manquantes est meilleure que de simplement construire différents modèles pour les cas avec des données manquantes. Surtout dans le cas des modèles linéaires [généralisés] (je peux peut-être voir dans les cas non linéaires …
J'ai un GLMM du formulaire: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Lorsque j'utilise drop1(model, test="Chi"), j'obtiens des résultats différents de ceux que j'utilise à Anova(model, type="III")partir du package de voiture ou summary(model). Ces deux derniers donnent les mêmes réponses. En utilisant un …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.