Je pensais avoir compris ce problème, mais maintenant je ne suis pas aussi sûr et je voudrais vérifier avec les autres avant de continuer.
J'ai deux variables, X
et Y
. Y
est un rapport, et il n'est pas limité par 0 et 1 et est généralement distribué normalement. X
est une proportion, délimitée par 0 et 1 (elle va de 0,0 à 0,6). Lorsque je lance une régression linéaire de Y ~ X
et je le découvre X
et ils Y
sont significativement liés linéairement. Jusqu'ici tout va bien.
Mais j'étudie plus loin et je commence à penser que peut - être X
et Y
la relation « peut - être plus curvilignes que linéaire. Pour moi, il ressemble à la relation X
et Y
peut - être plus proche de Y ~ log(X)
, Y ~ sqrt(X)
ou Y ~ X + X^2
, ou quelque chose comme ça. J'ai des raisons empiriques de supposer que la relation pourrait être curviligne, mais pas de raisons de supposer qu'une relation non linéaire pourrait être meilleure qu'une autre.
J'ai quelques questions connexes d'ici. Tout d'abord, ma X
variable prend quatre valeurs: 0, 0,2, 0,4 et 0,6. Lorsque je transforme en journal ou en racine carrée ces données, l'espacement entre ces valeurs se déforme de sorte que les valeurs 0 sont beaucoup plus éloignées de toutes les autres. Faute d'une meilleure façon de demander, est-ce ce que je veux? Je suppose que non, car j'obtiens des résultats très différents selon le niveau de distorsion que j'accepte. Si ce n'est pas ce que je veux, comment dois-je l'éviter?
Deuxièmement, pour transformer ces données en journal, je dois ajouter un certain montant à chaque X
valeur car vous ne pouvez pas prendre le journal de 0. Lorsque j'ajoute une très petite quantité, disons 0,001, j'obtiens une distorsion très importante. Lorsque j'ajoute une plus grande quantité, disons 1, j'obtiens très peu de distorsion. Y a-t-il un montant «correct» à ajouter à une X
variable? Ou est-il inapproprié d'ajouter quoi que ce soit à une X
variable au lieu de choisir une transformation alternative (par exemple cube-racine) ou un modèle (par exemple régression logistique)?
Le peu que j'ai pu découvrir sur cette question me donne l'impression de devoir faire preuve de prudence. Pour les autres utilisateurs de R, ce code créerait des données avec une sorte de structure similaire à la mienne.
X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)