Clarifications concernant la lecture d'un nomogramme

Voici un nomogramme créé à partir de l'ensemble de données mtcars avec le package rms pour la formule:

mpg ~ wt + am + qsec

entrez la description de l'image ici

Le modèle lui-même semble bon avec R2 de 0,85 et P <0,00001

> mod

Linear Regression Model

ols(formula = mpg ~ wt + am + qsec, data = mtcars)

                Model Likelihood     Discrimination    
                   Ratio Test           Indexes        
Obs       32    LR chi2     60.64    R2       0.850    
sigma 2.4588    d.f.            3    R2 adj   0.834    
d.f.      28    Pr(> chi2) 0.0000    g        6.456    

Residuals

    Min      1Q  Median      3Q     Max 
-3.4811 -1.5555 -0.7257  1.4110  4.6610 

          Coef    S.E.   t     Pr(>|t|)
Intercept  9.6178 6.9596  1.38 0.1779  
wt        -3.9165 0.7112 -5.51 <0.0001 
am         2.9358 1.4109  2.08 0.0467  
qsec       1.2259 0.2887  4.25 0.0002

Je ne sais pas exactement quels sont ces «points», «total de points» et «prédicteur linéaire». Lequel de ceux-ci représente mpg, la variable de résultat? J'apprécierai toute explication.

Edit: compte tenu des excellentes suggestions de @Glen_b pour une lecture facile des points, etc., voici un nomogramme alternatif:

entrez la description de l'image ici

Étant donné que la variable de résultat ou de réponse est disponible, elle peut être utilisée à la place du terme «prédicteur linéaire». Il devient également explicite de la façon dont le nomogramme doit être lu.

— rnso
source

joli diagramme en édition là

— Glen_b -Reinstate Monica

Eh bien, puisque votre modèle est linéaire, avec le mpg attendu égal au prédicteur linéaire, vous pouvez lire le mpg directement sur l'échelle du prédicteur linéaire.

Pour chaque variable, vous trouvez sa valeur sur l'échelle appropriée. Par exemple, imaginez que nous voulions trouver un mpg prévu pour une voiture avec wt=4, am=1, qsec=18:

entrez la description de l'image ici

ce qui donne un mpg prévu d'environ 18,94. La substitution dans l'équation donne 18,95, donc c'est assez proche. (En pratique, vous ne travailleriez probablement que jusqu'au point entier le plus proche - et obtiendrez ainsi une précision d'environ 2 chiffres - "19 mpg" - au lieu de 3-4 chiffres comme ici.)

Un des principaux avantages d'un tel diagramme pour moi est que vous voyez instantanément l'effet relatif des changements dans les différentes variables prédictives (IV) sur la réponse (DV). Même lorsque vous n'avez besoin du diagramme pour aucun calcul, il peut avoir une grande valeur en termes d'affichage simple des effets relatifs des variables.

Question de suivi des commentaires:

Fonctionne-t-il de la même manière pour les régressions non linéaires ou polynomiales?

Pour les cas où est non linéaire dans certains prédicteurs, des modifications mineures - et peut-être évidentes - sont nécessaires. Imaginez que nous ayons $E(Y)$ $\hat{y} = b_0+b x_1+f(x_2)$

où soit:

(a) est monotone; ou $f$

(b) n'est pas monotone $f$

Dans les deux cas, l'échelle pour fonctionnerait exactement comme ci-dessus, mais dans le cas: $x_1$

(a) l'échelle de ne sera pas linéaire; Par exemple, si est monotone décroissant mais (à peu près) quadratique, vous pourriez avoir quelque chose comme ceci: $x_2$ $f$

entrez la description de l'image ici

(b) l'échelle non monotone pour "se cassera" à un point de retournement et basculera. par exemple $x_2$

entrez la description de l'image ici

- ici la fonction a un minimum quelque part autour de $f(x)$ $x=2.23$

Il est possible que ces fonctions aient plusieurs points de retournement, où les échelles se briseraient et se retourneraient plusieurs fois - mais la ligne d'axe n'a que deux côtés.

Avec les nomogrammes de type point, cela ne présente aucune difficulté, car on peut déplacer légèrement des sections d'échelle supplémentaires (ou plus généralement, orthogonalement à la direction de l'axe) jusqu'à ce qu'il n'y ait pas de chevauchement.

(Plus d'un point de retournement peut être un problème pour les nomogrammes de type alignement; une solution présentée dans le livre de Harrell consiste à décaler légèrement toutes les échelles par rapport à une ligne de référence, sur laquelle la position de la valeur est réellement prise.)

Dans le cas des GLM avec fonction de liaison non linéaire, les échelles fonctionnent comme ci-dessus, mais l'échelle du prédicteur linéaire sera marquée d'une échelle non linéaire pour , quelque chose comme (a) ci-dessus. $Y$

Des exemples de toutes ces situations peuvent être trouvés dans les stratégies de modélisation de la régression de Harrell .

Juste quelques notes annexes

Je préférerais de loin voir deux échelles de points, en haut et en bas de la section pertinente; sinon, il est difficile de «s'aligner» avec précision car il faut deviner ce qu'est la «verticale». Quelque chose comme ça:

Cependant, comme je le note dans les commentaires, pour la dernière section du diagramme (total des points et prédicteur linéaire), une meilleure alternative à une deuxième échelle de points serait peut-être simplement d'avoir une paire d'échelles consécutives (total des points sur un côté, prédicteur linéaire de l'autre), comme ceci:

sur quoi nous évitons d'avoir à savoir ce qu'est la «verticale».
Avec seulement deux prédicteurs continus et un seul facteur binaire, nous pouvons très facilement construire un nomogramme d'alignement plus traditionnel :

Dans ce cas, vous trouvez simplement les valeurs wtet qsecsur leurs échelles et les joignez à une ligne; là où ils croisent l' mpgaxe, nous lisons la valeur (tandis que la amvariable détermine de quel côté de l' mpgaxe vous lisez). Dans un cas simple comme celui-ci, ces types de nomogrammes sont plus rapides et plus simples à utiliser, mais peuvent être moins faciles à généraliser à de nombreux prédicteurs, où ils peuvent devenir peu maniables. Le nomogramme de points dans votre question (tel qu'implémenté dans les stratégies de modélisation de régression et dans le rmspackage dans R) peut ajouter plus de variables de manière transparente. Cela peut être tout à fait un avantage lorsqu'il s'agit d'interactions.

— Glen_b -Reinstate Monica
source

Merci pour une explication claire et illustrée. Fonctionne-t-il de la même manière pour les régressions non linéaires ou polynomiales?

— rnso

J'ai modifié ma réponse pour répondre à cette question supplémentaire.

— Glen_b -Reinstate Monica

Ceci est un incroyable post Glen. Je pense que je vais modifier la méthode de la nomogramfonction plotpour ajouter l' Pointséchelle supplémentaire par défaut. Grande suggestion !!

— Frank Harrell

@FrankHarrell Non, car vous ne lisez aucune relation entre les points et le total des points - ils n'ont même pas besoin d'être sur la même page. Le problème est de trouver «vertical» afin que vous puissiez lire les points totaux avec le prédicteur linéaire avec précision. Si ces deux échelles sont très proches ou se touchent, plutôt que de dire deux pouces de distance, ce n'est pas un problème. Lorsqu'ils sont à quelques centimètres l'un de l'autre, quelques degrés d'erreur dans la recherche de la verticale peuvent signifier une assez bonne erreur dans le résultat. Cependant, vous avez toujours besoin de deux échelles de points dans la première section, car vous pouvez avoir de nombreux prédicteurs et ils ne peuvent pas tous être adjacents à l'échelle des points.

— Glen_b -Reinstate Monica

@FrankHarrell Personnellement, je pense qu'une grille encombre l'affichage et tend à obscurcir sa valeur; J'évite les grilles quand je le peux. Ils ne permettent pas non plus le même degré de précision pour obtenir la verticale, sauf si la grille est aussi fine que l'échelle (ce qui, je pense, serait terrible visuellement), sans option pour une, je finirais par éditer dans une deuxième échelle de points (tout comme je l'ai fait ici) pour qu'il soit dans ce que je verrais comme un état utilisable aux deux fins, je le vois avoir (i. faire une estimation raisonnablement précise des valeurs prédites sans obscurcir ii. la clarté des contributions relatives à la réponse) ..

— Glen_b -Reinstate Monica