Régression linéaire lorsque Y est borné et discret


14

La question est simple: est-il approprié d'utiliser une régression linéaire lorsque Y est borné et discret (par exemple, le score du test 1 ~ 100, certains classements prédéfinis 1 ~ 17)? Dans ce cas, est-il «pas bon» d'utiliser la régression linéaire ou est-ce totalement faux de l'utiliser?

Réponses:


10

Lorsqu'une réponse ou un résultat est limité, diverses questions se posent lors de l'ajustement d'un modèle, notamment les suivantes: Y

  1. Tout modèle qui pourrait prédire des valeurs de réponse en dehors de ces limites est en principe douteux. Par conséquent, un modèle linéaire pourrait être problématique car il n'y a pas de limites sur pour les prédicteurs et les coefficients chaque fois que les sont eux-mêmes illimités dans une ou les deux directions. Cependant, la relation pourrait être suffisamment faible pour que cela ne morde pas et / ou les prévisions pourraient bien rester dans les limites de la plage observée ou plausible des prédicteurs. À un extrême, si la réponse est une moyenne bruit, peu importe le modèle qui convient.Y^=XbXbX+

  2. Comme la réponse ne peut pas dépasser ses limites, une relation non linéaire est souvent plus plausible, les réponses prédites se réduisant à l'approche asymptotique des limites. Les courbes ou surfaces sigmoïdes telles que celles prédites par les modèles logit ou probit sont intéressantes à cet égard et ne sont plus difficiles à ajuster. Une réponse telle que l'alphabétisation (ou une fraction adoptant une nouvelle idée) montre souvent une telle courbe sigmoïde dans le temps et de manière plausible avec presque tout autre prédicteur.

  3. Une réponse bornée ne peut pas avoir les propriétés de variance attendues dans une régression simple ou vanille. Nécessairement, lorsque la réponse moyenne se rapproche des limites inférieures et supérieures, la variance approche toujours de zéro.

Un modèle doit être choisi en fonction de ce qui fonctionne et de la connaissance du processus de génération sous-jacent. Que le client ou le public connaisse des familles de modèles particulières peut également guider la pratique.

Notez que j'évite délibérément les jugements généraux tels que bon / pas bon, approprié / non approprié, bien / mal. Tous les modèles sont au mieux des approximations et quelle approximation fait appel, ou est assez bonne pour un projet, n'est pas si facile à prévoir. Je préfère généralement les modèles logit comme premier choix pour les réponses limitées moi-même, mais même cette préférence est basée en partie sur l'habitude (par exemple, j'évite les modèles probit sans raison très bonne) et en partie sur l'endroit où je communiquerai les résultats, généralement aux lecteurs qui le sont, ou devrait être, statistiquement bien informé.

Vos exemples d'échelles discrètes sont pour les scores 1-100 (dans les affectations que je marque, 0 est certainement possible!) Ou les classements 1-17. Pour des échelles comme celle-ci, je penserais généralement à adapter des modèles continus à des réponses échelonnées à [0, 1]. Il existe cependant des praticiens des modèles de régression ordinaux qui adapteraient volontiers ces modèles à des échelles avec un nombre assez important de valeurs discrètes. Je suis heureux s'ils répondent s'ils le souhaitent.


8

Je travaille dans la recherche sur les services de santé. Nous collectons les résultats rapportés par les patients, par exemple la fonction physique ou les symptômes dépressifs, et ils sont fréquemment notés dans le format que vous avez mentionné: une échelle de 0 à N générée en résumant toutes les questions individuelles de l'échelle.

La grande majorité de la littérature que j'ai passée en revue vient d'utiliser un modèle linéaire (ou un modèle linéaire hiérarchique si les données proviennent d'observations répétées). Je n'ai encore vu personne utiliser la suggestion de @ NickCox pour un modèle logit (fractionnaire), bien qu'il s'agisse d'un modèle parfaitement plausible.

La théorie de la réponse aux items me semble être un autre modèle statistique plausible à appliquer. C'est là que vous supposez qu'un trait latent provoque des réponses aux questions en utilisant un modèle logistique ou logistique ordonné. Cela traite intrinsèquement les problèmes de délimitation et de non-linéarité possibles que Nick a soulevés.θ

Le graphique ci-dessous découle de mon travail de thèse à venir. C'est là que j'adapte un modèle linéaire (rouge) à un score de question sur les symptômes dépressifs qui a été converti en scores Z et un modèle IRT (explicatif) en bleu aux mêmes questions. Fondamentalement, les coefficients des deux modèles sont à la même échelle (c.-à-d. En écarts-types). Il y a en fait pas mal d'accord sur la taille des coefficients. Comme Nick l'a mentionné, tous les modèles ont tort. Mais le modèle linéaire n'est peut-être pas trop mal utilisé.

entrez la description de l'image ici

Cela dit, une hypothèse fondamentale de presque tous les modèles IRT actuels est que le trait en question est bipolaire, c'est-à-dire que son support est to . Ce n'est probablement pas le cas des symptômes dépressifs. Des modèles de traits latents unipolaires sont encore en cours de développement et les logiciels standard ne peuvent pas les adapter. Un grand nombre des caractéristiques de la recherche sur les services de santé qui nous intéressent sont probablement unipolaires, par exemple les symptômes dépressifs, d'autres aspects de la psychopathologie, la satisfaction des patients. Le modèle IRT peut donc également être erroné.

(Remarque: le modèle ci-dessus était adapté à l'ensemble de Phil Chalmers mirtdans R. Graph produit à l'aide de ggplot2et ggthemes. Le schéma de couleurs est tiré du schéma de couleurs par défaut de Stata.)


6
Ce n'est pas parce que les modèles linéaires sont largement utilisés qu'ils sont appropriés. Beaucoup de gens utilisent des modèles linéaires car ce n'est que ce qu'ils savent ou avec lequel ils sont à l'aise.
qwr

1
La littérature médicale regorge particulièrement de mauvaises pratiques qui se propagent par une idéologie de type «c'est ce que fait ce domaine / journal». En règle générale, je n'utiliserais pas ou n'utiliserais pas quelque chose simplement en raison de son apparence, aussi courante soit-elle, dans la recherche médicale.
LSC

1

Jetez un œil aux valeurs prévues et vérifiez si elles ont à peu près la même distribution que les Y d'origine. Si tel est le cas, la régression linéaire est probablement correcte. et vous gagnerez peu en améliorant votre modèle.


1

Une régression linéaire peut décrire "adéquatement" de telles données, mais c'est peu probable. De nombreuses hypothèses de régression linéaire ont tendance à être violées dans ce type de données à un point tel que la régression linéaire devient mal avisée. Je vais juste choisir quelques hypothèses comme exemples,

  1. Normalité - Même en ignorant le caractère discret de ces données, ces données ont tendance à présenter des violations extrêmes de la normalité car les distributions sont "coupées" par les limites.
  2. Homoscédasticité - Ce type de données a tendance à violer l'homoscédasticité. Les écarts ont tendance à être plus importants lorsque la moyenne réelle se situe vers le centre de la plage, par rapport aux bords.
  3. Linéarité - Étant donné que la plage de Y est limitée, l'hypothèse est automatiquement violée.

Les violations de ces hypothèses sont atténuées si les données ont tendance à tomber autour du centre de la plage, loin des bords. Mais en réalité, la régression linéaire n'est pas l'outil optimal pour ce type de données. De bien meilleures alternatives pourraient être la régression binomiale ou la régression du poisson.


2
Il est difficile de voir que la régression de Poisson est un candidat pour des réponses doublement bornées.
Nick Cox

0

Si la réponse ne prend que quelques catégories, vous pourrez peut-être utiliser des méthodes de classification ou une régression ordinale si votre variable de réponse est ordinale.

Une régression linéaire simple ne vous donnera ni catégories discrètes ni variables de réponse bornées. Ce dernier peut être corrigé en utilisant un modèle logit comme dans la régression logistique. Pour quelque chose comme un score de test avec 100 catégories 1-100, vous pourriez aussi bien simplifier votre prédiction et utiliser une variable de réponse bornée.


0

utiliser un cdf (fonction de distribution cumulative à partir des statistiques). si votre modèle est y = xb + e, changez-le en y = cdf (xb + e). Vous devrez redimensionner vos données de variable dépendante pour qu'elles se situent entre 0 et 1. S'il s'agit de nombres positifs, divisez-les par maximum et prenez vos prédictions de modèle et multipliez-les par le même nombre. Ensuite, vérifiez l'ajustement et voyez si les prédictions limitées améliorent les choses.

Vous voudrez probablement utiliser un algorithme prédéfini pour prendre soin des statistiques pour vous.


1
Cela semble confondre deux faits: (1) les réponses bornées doivent être mises à l'échelle entre 0 et 1 pour que les modèles logit, probit et similaires s'appliquent (2) les cdfs varient également entre 0 et 1. En traitant une réponse fractionnaire en tant que telle, vous n'êtes pas ne modélise pas son cdf.
Nick Cox
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.