Il me semble que pour choisir les bons outils statistiques, je dois d'abord identifier si mon jeu de données est discret ou continu.
Pourriez-vous me dire comment puis-je tester si les données sont discrètes ou continues avec R?
Il me semble que pour choisir les bons outils statistiques, je dois d'abord identifier si mon jeu de données est discret ou continu.
Pourriez-vous me dire comment puis-je tester si les données sont discrètes ou continues avec R?
Réponses:
La seule raison pour laquelle je peux immédiatement penser à exiger cette décision, est de décider de l'inclusion d'une variable comme continue ou catégorique dans une régression.
Tout d'abord, vous n'avez parfois pas le choix: les variables de caractère ou les facteurs (où quelqu'un fournissant le data.frame a pris la décision pour vous) sont évidemment catégoriques.
Cela nous laisse avec des variables numériques. Vous pouvez être tenté de vérifier simplement si les variables sont des entiers, mais ce n'est pas un bon critère: regardez la première ligne de code ci-dessous ( x1
): ce sont 1000 observations de seulement les deux valeurs et : même si elles sont pas des entiers, cela semble une variable catégorielle évidente. Ce que vous pourriez faire pour certains est de vérifier le nombre de valeurs différentes dans vos données, bien que tout seuil que vous pourriez utiliser pour cela sera subjectif, je suppose:2,5x
x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative
J'aurais tendance à dire qu'une variable qui n'a que 5% de valeurs uniques pourrait être qualifiée de discrète en toute sécurité (mais, comme mentionné: c'est subjectif). Cependant: cela ne fait pas de lui un bon candidat pour l'inclure en tant que variable catégorielle dans votre modèle: si vous avez 1000000 observations et 5% de valeurs uniques, cela laisse encore 50000 `` catégories '': si vous l'incluez comme catégorique, vous '' va passer un enfer de beaucoup de degrés de liberté.
Je suppose que cet appel est encore plus subjectif et dépend grandement de la taille de l'échantillon et de la méthode de choix. Sans plus de contexte, il est difficile de donner des directives ici.
Alors maintenant, vous avez probablement des variables que vous pourriez ajouter comme catégoriques dans votre modèle. Mais devriez- vous? On peut répondre à cette question (même si cela dépend vraiment, encore une fois, de votre objectif) avec un test de rapport de vraisemblance: le modèle où la variable est catégorique est un mannequin du modèle avec la variable comme covariable continue. Pour voir cela, imaginez une régression linéaire sur une variable x
qui contient trois valeurs 0
, 1
et 2
. Ajustement d'un modèle:
où le est un indicateur de variable fictive (il est égal à 1 si ) est juste un plus flexible façon d'ajuster un modèle
x i x = = i E [ y ] = β 0 + β 1 x E [ y ] = β 0 + β 1 x 1 + 2 β 1 x 2
Avec la structure super / sous-modèle, vous pouvez savoir s'il y a des preuves dans les données que la structure plus complexe est nécessaire, en effectuant un test de rapport de vraisemblance : -2 fois la différence de log maximum de vraisemblance (généralement indiquée comme la déviance dans R) suivre une avec df = la différence de nombre de paramètres (dans l'exemple ci-dessus: 4 paramètres - 3 paramètres).