Lorsque les données présentent un manque d'informations (lacunes), c'est-à-dire qu'elles ne sont pas complètes. Par conséquent, il est important de prendre en compte cette fonctionnalité lors d'une analyse ou d'un test.
Gelman & Hill (2006) disent: Dans Bugs, les résultats manquants dans une régression peuvent être facilement gérés en incluant simplement le vecteur de données, les NA et tout. Les bogues modélisent explicitement la variable de résultat, et il est donc trivial d'utiliser ce modèle pour, en e ff et, imputer …
Je veux déterminer lequel des deux ensembles de données (B1, B2) correspond le mieux (pearsons r) à un autre ensemble (A). Il manque des données dans tous les ensembles de données. Comment puis-je déterminer si la corrélation résultante est significativement différente ou non? Par exemple, 8426 valeurs sont présentes dans …
Je travaille sur une méta-analyse des effets aléatoires couvrant un certain nombre d'études qui ne rendent pas compte des écarts-types; toutes les études indiquent la taille de l'échantillon. Je ne pense pas qu'il soit possible d'approximer ou d'imputer les données SD manquantes. Comment pondérer une méta-analyse qui utilise des différences …
J'essaie de comprendre comment je pourrais mieux modéliser une variable où, au fil du temps, j'ai obtenu des prédicteurs de plus en plus détaillés. Par exemple, envisagez de modéliser les taux de recouvrement des prêts en défaut. Supposons que nous ayons un ensemble de données avec 20 ans de données, …
J'ai un randomForestmodèle de classification fine que j'aimerais utiliser dans une application qui prédit la classe d'un nouveau cas. Le nouveau cas a inévitablement des valeurs manquantes. Predict ne fonctionnera pas comme tel pour les AN. Comment dois-je faire alors? data(iris) # create first the new case with missing values …
Supposons que j'ai un échantillon de fréquences de 4 événements possibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 et j'ai les probabilités attendues que mes événements se produisent: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Avec la somme des fréquences …
Supposons que l'on nous donne un ensemble de données de la forme et . On nous donne la tâche de prédire sur la base des valeurs de . Nous estimons deux régressions où: ( y , x 1 , x 2 , ⋯ , x n - 1 ) y …
J'ai une série chronologique de mesures (séries de hauteurs unidimensionnelles). Au cours de la période d'observation, le processus de mesure s'est interrompu pendant quelques instants. Ainsi, les données résultantes sont un vecteur avec NaN où il y avait des lacunes dans les données. L'utilisation de MATLAB me pose un problème …
Je modélise la prédiction du diabète à l'aide de la régression logistique. L'ensemble de données utilisé est le système de surveillance des facteurs de risque comportementaux (BRFSS) du Center for Disease Control (CDC). L'une des variables indépendantes est l'hypertension artérielle. Il est catégorique avec les niveaux suivants «Oui», «Non», «Ne …
Dans un problème sur lequel je travaille, j'ai deux variables aléatoires, X et Y. J'ai besoin de comprendre à quel point elles sont étroitement corrélées, mais elles sont de dimensions différentes. Le rang de l'espace de rangée de X est 4350, et le rang de l'espace de rangée de Y …
Pour simplifier un peu, j'ai environ un million d'enregistrements qui enregistrent l'heure d'entrée et de sortie des personnes dans un système s'étalant sur une dizaine d'années. Chaque enregistrement a une heure d'entrée, mais pas chaque enregistrement a une heure de sortie. La durée moyenne dans le système est d'environ 1 …
Supposons que nous ayons un test d' ensemble de données : 1 8 12 14 . . 19 Le . dénote des valeurs manquantes. Quand serait-il préférable d'utiliser la moyenne des valeurs non manquantes pour imputer les valeurs manquantes plutôt que de supposer que les données proviennent d'une distribution normale?
Des aigles marqués par satellite disparaissent en Écosse, et le tableau ci-dessus montre le sort des balises par modèle de balise. Je suis particulièrement intéressé par ces étiquettes qui sont «arrêtées - pas de dysfonctionnement», car il est possible que ces oiseaux soient également tués et que les corps et …
J'ai un ensemble de données qui examine les demandes d'immigration et les acceptations de visa (octroi de visas). Les taux sont calculés pour les demandes de visa «acceptées» et «rejetées». Cependant, l'ensemble de données contient également des valeurs pour les cas fermés. Normalement, c'est lorsque l'immigrant a cessé de se …
\newcommand{\P}{\mathbb{P}} Je m'intéresse aux données d'observation dans lesquelles l'assignation de traitement peut être extrêmement bien expliquée. Par exemple, une régression logistique de P (A=1 | X) = ( 1 + exp( - ( Xβ) ))- 1P(A=1|X)=(1+exp(−(Xβ)))−1\P(A =1 |X) = (1+ \exp(-(X\beta)))^{-1} wehre UNEAA affectation de traitement et des covariables XXX …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.