Utilisation de la régression logistique pour une variable dépendante continue


9

J'ai récemment reçu une révision de mon article de recherche et voici le commentaire de l'examinateur sur mon article:

les résultats obtenus à partir d'un modèle ne sont pas tout à fait convaincants, en particulier la régression linéaire présente généralement des lacunes dans le traitement des valeurs aberrantes. Je suggère aux auteurs d'essayer également la régression logistique et de comparer les résultats correspondants avec les résultats actuels. Si des observations similaires étaient obtenues, les résultats seraient plus solides.

Le commentaire de l'examinateur est-il correct? La régression logistique est-elle meilleure que la régression linéaire multiple?

Le problème est que ma variable dépendante n'est pas catégorique, c'est une variable d'échelle. Que puis-je faire maintenant? Quelle autre méthode de régression recommandez-vous pour évaluer mon modèle?

Le score est une variable dépendante dans le tableau suivant. La récence, la fréquence, l'ancienneté et le dernier score sont des variables indépendantes.

entrez la description de l'image ici

J'ai extrait ces variables d'un site et je fais l'hypothèse que ces variables indépendantes ont un effet significatif sur le score . Par conséquent, je représente les modèles suivants:

entrez la description de l'image ici


Soit dit en passant, la valeur de R au carré pour ce modèle linéaire est de 0,316! Le critique a également commenté cette valeur:

alors les résultats ne sont pas convaincants car il n'y a pas d'indicateur sur la qualité des coefficients appris. Un petit R ^ 2 ne peut pas indiquer de bonnes performances car le modèle peut être sur-ajusté.

Est-ce que 0,316 est très bas pour R au carré? Dans les articles précédents, j'ai vu beaucoup de valeurs similaires.

entrez la description de l'image ici


C'est un point mineur, mais comprendre comment le score est calculé peut être utile pour fournir de bonnes réponses. Pourriez-vous modifier votre question pour nous en informer?
whuber

Je modifie mon message. mes connaissances statistiques ne sont pas bonnes. Je serais très reconnaissant si vous aidez.
PSS

1
n'y a-t-il aucune idée de l'exécution d'une régression logistique sur une variable dépendante continue ???
PSS

1
Le score doit-il être compris entre 0 et 100? Dans ce cas, vous pourriez diviser par 100 et faire une régression logistique sur la variable résultante, qui serait toujours comprise entre 0 et 1 ... ça fait un peu bizarre de faire les choses de cette façon, et je ne sais pas à quel point c'est sensé, mais c'est peut-être ce que le critique suggère?
Sam Livingstone

2
Non, le passage à 0-1 ou la suppression d'informations précieuses et la catégorisation du score ne sont pas du tout de bonnes solutions.
Frank Harrell

Réponses:


7

Le modèle de régression logistique ordinale à cotes proportionnelles devrait fonctionner correctement pour ce problème. Pour une implémentation efficace qui peut autoriser des milliers de valeurs uniques , voir la fonction dans le package R.Yormrms


J'ai installé R et tous les packages nécessaires. veuillez fournir un exemple pour la fonction orm? Je n'ai pas trouvé en cherchant. Pour mon modèle de régression, quel devrait être le code?
PSS

1
Y

1

vous pouvez également essayer des modèles probit / logit ordonnés en attribuant les valeurs 1, 2,3 et 4 aux scores des 1er, ... et 4e centiles respectivement.


Quelle variable proposez-vous de réduire à ses quatre centiles les plus bas (sur 100)? Qu'est-ce que cela accomplirait et pourquoi?
whuber

-1

Vous pouvez dichotomiser (convertir en une variable binaire) le score. Si le score est compris entre 0 et 100, vous pouvez attribuer 0 à tout score inférieur à 50 et 1 sinon. Je n'ai jamais entendu auparavant que c'était une bonne façon de traiter les valeurs aberrantes. Cela pourrait simplement cacher les valeurs aberrantes car il sera impossible de distinguer les scores très élevés ou faibles. Cela n'a pas beaucoup de sens pour moi, mais vous pouvez l'essayer.

βR2

R2R2

Je ne vais pas prétendre en savoir beaucoup sur les statistiques, mais il me semble, sur la base de ses commentaires, que ce critique pourrait en savoir encore moins.


Merci beaucoup pour votre réponse. Parce que toutes les variables sont asymétriques, je les ai donc transformées en logarithme naturel. Ai-je raison? Merci d'avoir clarifié ce que signifie «sur-ajustement»! En fait, je ne savais pas ce que le sur-ajustement signifie. Maintenant, je peux répondre au réviseur et à l'éditeur. Soit dit en passant, quelle est votre recommandation pour moi de rendre mon évaluation plus solide? quelle méthode de régression pensez-vous est la meilleure?
PSS

6
Y

Je suis d'accord avec @FrankHarrell que choisir un seuil arbitraire pour dichotomiser vos données n'a aucun sens. S'agit-il de l'ensemble de vos données? Si vous avez si peu d'observations, vos données ne sembleront jamais distribuées normalement! Vous devez également comprendre le type de données avec lesquelles vous traitez. Quelle plage de valeurs peuvent-ils prendre, est-il raisonnable de supposer qu'ils devraient être normalement distribués? Je vais examiner la suggestion de Frank d'utiliser la régression logistique ordinale, mais je suppose qu'elle utilise l'ordre des scores au lieu de leur valeur dans la régression.
pontikos

@PotentialScientist, peu importe si vos distributions sont asymétriques. Dans la régression OLS (typique), seule la distribution des résidus est importante, voir ici: que-si-les-résidus-sont-normalement-distribués-mais-y-n'est pas . Vous pouvez également lire ceci: interprétation-du-prédicteur-transformé-log , pour comprendre ce qui est arrivé à votre modèle suite à la transformation de vos prédicteurs.
gung - Rétablir Monica

@PotentialScientist comment allez-vous? Si vous modifiez votre question pour fournir les données au format CSV, je peux essayer d'exécuter la fonction orm suggérée par le professeur Harrell et nous pouvons analyser la sortie. Cela vaut la peine d'apprendre les bases de R (comment lire dans un fichier et exécuter une régression).
pontikos

-1

Il est possible d'appliquer une régression logistique même à une variable dépendante continue. Cela a du sens, si vous voulez vous assurer que le prévu scoreest toujours à l'intérieur [0, 100](je juge d'après vos captures d'écran qu'il est à l'échelle de 100 points).

Pour ce faire, divisez simplement votre score par 100 et exécutez une régression logistique avec cette [0,1]variable cible basée sur, comme dans cette question - vous pouvez le faire, par exemple, avec R, en utilisant

glm(y~x, family="binomial", data=your.dataframe)

R2

R20.3R2R2

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.