Lorsque les données présentent un manque d'informations (lacunes), c'est-à-dire qu'elles ne sont pas complètes. Par conséquent, il est important de prendre en compte cette fonctionnalité lors d'une analyse ou d'un test.
Je commence à me familiariser avec l’utilisation de glmnetavec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
Quelles sont les raisons théoriques de ne pas gérer les valeurs manquantes? Machines à gradient progressif, les arbres de régression gèrent les valeurs manquantes. Pourquoi Random Forest ne fait-il pas cela?
Je me réfère à cet article: Hayes JR, Groner JI. "Utiliser plusieurs scores d'imputation et de propension pour tester l'effet de l'utilisation des sièges de voiture et de la ceinture de sécurité sur la gravité des blessures à partir des données du registre des traumatismes." J Pediatr Surg. 2008 mai; …
J'ai un jeu de données. Il y a beaucoup de valeurs manquantes. Pour certaines colonnes, la valeur manquante a été remplacée par -999, mais pour d'autres colonnes, la valeur manquante a été marquée comme "NA". Pourquoi utiliserions -999 pour remplacer la valeur manquante?
Je voudrais régresser un vecteur B par rapport à chacune des colonnes d'une matrice A. C'est trivial s'il n'y a pas de données manquantes, mais si la matrice A contient des valeurs manquantes, ma régression par rapport à A est contrainte d'inclure uniquement les lignes où tout des valeurs sont …
Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 2 ans . J'utilise caret pour exécuter une forêt aléatoire validée de façon croisée …
Je préfère de beaucoup le caret pour sa capacité de réglage des paramètres et son interface uniforme, mais j'ai observé qu'il nécessite toujours des ensembles de données complets (c'est-à-dire sans NA) même si le modèle "nu" appliqué autorise les NA. C'est très gênant, car il faut appliquer des méthodes d'imputation …
J'essaie de développer un modèle prédictif utilisant des données cliniques de grande dimension, y compris des valeurs de laboratoire. L'espace de données est rare avec 5k échantillons et 200 variables. L'idée est de classer les variables à l'aide d'une méthode de sélection des fonctionnalités (IG, RF, etc.) et d'utiliser des …
J'ai lu quelques explications sur l'algorithme EM (par exemple de Bishop's Pattern Recognition and Machine Learning et de Roger and Gerolami First Course on Machine Learning). La dérivation de EM est ok, je le comprends. Je comprends également pourquoi l'algorithme couvre quelque chose: à chaque étape, nous améliorons le résultat …
Remarque: Je poste une question d'un ancien élève qui ne peut pas publier seul pour des raisons techniques. Étant donné un échantillon iid d'une distribution de Weibull avec pdf y a-t-il une représentation de variable manquante utile et donc un algorithme EM (expectation-maximization) associé qui pourrait être utilisé pour trouver …
J'ai utilisé la prcomp()fonction pour effectuer une PCA (analyse des composants principaux) dans R. Cependant, il y a un bogue dans cette fonction, de sorte que le na.actionparamètre ne fonctionne pas. J'ai demandé de l'aide sur stackoverflow ; deux utilisateurs y ont proposé deux manières différentes de gérer les NAvaleurs. …
Quelles sont les méthodes utilisées par les algorithmes d'apprentissage de l'arbre de décision pour gérer les valeurs manquantes. Remplissent-ils simplement l'emplacement en utilisant une valeur appelée manquante? Merci.
J'ai un grand ensemble de vecteurs de fonctionnalités que j'utiliserai pour attaquer un problème de classification binaire (en utilisant scikit learn en Python). Avant de commencer à penser à l'imputation, je voudrais essayer de déterminer à partir des parties restantes des données si les données manquantes sont «manquantes au hasard» …
J'ai utilisé l'imputation multiple pour obtenir un certain nombre de jeux de données terminés. J'ai utilisé des méthodes bayésiennes sur chacun des ensembles de données terminés pour obtenir des distributions postérieures pour un paramètre (un effet aléatoire). Comment puis-je combiner / regrouper les résultats de ce paramètre? Plus de contexte: …
Quelles sont les principales différences entre les données rares et les données manquantes? Et comment cela influence-t-il l'apprentissage automatique? Plus précisément, quel effet les données éparses et les données manquantes ont-elles sur les algorithmes de classification et le type d'algorithmes de régression (prédiction des nombres). Je parle d'une situation où …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.