Je commence à me familiariser avec l’utilisation de glmnet
avec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous:
age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7)
gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0)
bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88)
m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1)
p_edu <- c(0, 2, 2, 2, 2, 3, 2, 0, 0)
f_color <- c("blue", "blue", "yellow", "red", "red", "yellow", "yellow",
"red", "yellow")
asthma <- c(1, 1, 0, 1, 0, 0, 0, 1, 1)
# df is a data frame for further use!
df <- data.frame(age, gender, bmi_p, m_edu, p_edu, f_color, asthma)
Les colonnes (variables) de l'ensemble de données ci-dessus sont les suivantes:
age
(âge de l'enfant en années) - continugender
- binaire (1 = mâle; 0 = femelle)bmi_p
(Percentile IMC) - continum_edu
(niveau d'éducation le plus élevé de la mère) - ordinal (0 = inférieur au lycée; 1 = diplôme d'études secondaires; 2 = baccalauréat; 3 = diplôme post-baccalauréat)p_edu
(niveau d'éducation le plus élevé du père) - ordinal (identique à m_edu)f_color
(couleur primaire préférée) - nominal ("bleu", "rouge" ou "jaune")asthma
(statut de l'asthme de l'enfant) - binaire (1 = asthme; 0 = pas d'asthme)
L'objectif de cet exemple est d'utiliser Lasso pour créer un modèle prédictif de l' état de l' asthme de l' enfant dans la liste des 6 variables prédictives potentiels ( age
, gender
, bmi_p
, m_edu
, p_edu
et f_color
). Évidemment, la taille de l'échantillon est un problème ici, mais j'espère mieux comprendre comment gérer les différents types de variables (c.-à-d. Continues, ordinales, nominales et binaires) dans le glmnet
cadre lorsque le résultat est binaire (1 = asthme 0 = pas d'asthme).
En tant que tel, est-ce que n'importe qui serait disposé à fournir un exemple de R
script avec des explications pour cet exemple factice utilisant LASSO avec les données ci-dessus pour prédire le statut d'asthme? Bien que très basique, je sais que moi-même et probablement beaucoup d’autres sur CV apprécierions beaucoup cela!
glmnet
en action avec un résultat binaire.
dput
d'un objet R réel ; Ne faites pas que les lecteurs mettent du glaçage sur le dessus et ne vous fassent pas cuire un gâteau!. Si vous générez le cadre de données approprié dans R, par exemplefoo
, éditez ensuite la question dans la questiondput(foo)
.