interprétation de l'axe des y d'un graphique de dépendance partielle


22

J'ai lu d'autres sujets sur les diagrammes de dépendance partielle et la plupart d'entre eux concernent la façon dont vous les tracez réellement avec différents packages, pas comment vous pouvez les interpréter avec précision, donc:

J'ai lu et créé une bonne quantité de parcelles de dépendance partielle. Je sais qu'ils mesurent l'effet marginal d'une variable χs sur la fonction ƒS (χS) avec l'effet moyen de toutes les autres variables (χc) de mon modèle. Des valeurs y plus élevées signifient qu'elles ont une plus grande influence sur la prévision précise de ma classe. Cependant, je ne suis pas satisfait de cette interprétation qualitative.

Ce lien montre l'un de mes nombreux complots.  http://imgur.com/RXqlOky

Mon modèle (forêt aléatoire) prévoit deux classes discrètes. "Oui arbres" et "Pas d'arbres". TRI est une variable qui s'est avérée être une bonne variable pour cela.

Ce que j'ai commencé à penser, c'est que la valeur Y montre une probabilité de classification correcte. Exemple: y (0,2) montre que les valeurs TRI> ~ 30 ont 20% de chances d'identifier correctement une classification True Positive.

Où inversement

y (-0,2) montre que les valeurs TRI de <~ 15 ont 20% de chances d'identifier correctement une classification True Negative.

Les interprétations générales qui sont faites dans la littérature sonneraient comme ceci "Les valeurs supérieures à TRI 30 commencent à avoir une influence positive pour la classification dans votre modèle" et c'est tout. Cela semble si vague et inutile pour un complot qui peut potentiellement en dire autant sur vos données.

En outre, tous mes tracés plafonnent à -1 à 1 dans la plage pour l'axe y. J'ai vu d'autres graphiques de -10 à 10, etc. Est-ce une fonction du nombre de classes que vous essayez de prédire?

Je me demandais si quelqu'un pouvait parler de ce problème. Peut-être montrez-moi comment je dois interpréter ces intrigues ou de la littérature qui peut m'aider. Peut-être que je lis trop loin là-dedans?

J'ai lu très attentivement Les éléments de l'apprentissage statistique: exploration de données, inférence et prédiction et cela a été un excellent point de départ, mais c'est tout.


Le graphique montre en moyenne la probabilité de l'arbre oui jusqu'à TRI 30 et augmente ensuite. Ce lien explique comment interpréter la classification binaire PDP et les graphiques à variables continues.
LazyNearestNeigbour

Réponses:


13

Chaque point du graphique de dépendance partielle est le pourcentage de vote moyen en faveur de la classe "Oui arbres" pour toutes les observations, étant donné un niveau fixe de TRI.

Ce n'est pas une probabilité de classification correcte. Cela n'a absolument rien à voir avec la précision, les vrais négatifs et les vrais positifs.

Quand vous voyez la phrase

Les valeurs supérieures à TRI 30 commencent à avoir une influence positive sur la classification dans votre modèle

est une façon gonflée de dire

Les valeurs supérieures à TRI 30 commencent à prédire "Oui arbres" plus fortement que les valeurs inférieures à TRI 30


2

La fonction de dépendance partielle vous donne essentiellement la tendance "moyenne" de cette variable (en intégrant toutes les autres dans le modèle). C'est la forme de cette tendance qui est "importante". Vous pouvez interpréter la plage relative de ces graphiques à partir de différentes variables prédictives, mais pas la plage absolue. J'espère que cela pourra aider.


2

Une façon de regarder les valeurs de l'axe y est qu'elles sont relatives les unes aux autres dans les autres tracés. Lorsque ce nombre est supérieur à celui des autres graphiques en valeurs absolues, cela signifie qu'il est plus important car l'impact de cette variable sur la sortie est plus important.

Si vous êtes intéressé par les mathématiques derrière les graphiques de dépendance partielle et comment ce nombre est estimé, vous pouvez le trouver ici: http://statweb.stanford.edu/~jhf/ftp/RuleFit.pdf section 8.1

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.