J'ai des données pour lesquelles j'ai calculé la corrélation Spearman et je souhaite les visualiser pour une publication. La variable dépendante est classée, la variable indépendante ne l'est pas. Ce que je veux visualiser est plus la tendance générale que la pente réelle, j'ai donc classé les indépendants et appliqué la corrélation / régression de Spearman. Mais juste au moment où j'ai tracé mes données et que j'étais sur le point de les insérer dans mon manuscrit, je suis tombé sur cette déclaration (sur ce site ):
Vous n'utiliserez presque jamais de ligne de régression pour la description ou la prédiction lorsque vous effectuez une corrélation de rang Spearman, donc ne calculez pas l'équivalent d'une ligne de régression .
et ensuite
Vous pouvez représenter graphiquement les données de corrélation de rang Spearman de la même manière que pour une régression ou une corrélation linéaire. Cependant, ne mettez pas de ligne de régression sur le graphique ; il serait trompeur de mettre une ligne de régression linéaire sur un graphique lorsque vous l'avez analysé avec une corrélation de rang.
Le fait est que les lignes de régression ne sont pas si différentes de celles où je ne classe pas les indépendants et ne calcule pas la corrélation de Pearson. La tendance est la même, mais en raison des frais exorbitants pour les graphiques en couleur dans les revues, j'ai opté pour une représentation monochrome et les points de données réels se chevauchent tellement qu'ils ne sont pas reconnaissables.
Je pourrais contourner cela, bien sûr, en faisant deux graphiques différents: un pour les points de données (classés) et un pour la ligne de régression (non classé), mais s'il s'avère que la source que j'ai citée est erronée ou le problème pas si problématique dans mon cas, cela me faciliterait la vie. (J'ai également vu cette question , mais cela ne m'a pas aidé.)
Modifier pour plus d'informations:
La variable indépendante sur l'axe des x représente le nombre d'entités et la variable dépendante sur l'axe des y représente le classement des algorithmes de classification par rapport à leurs performances. Maintenant, j'ai quelques algorithmes qui sont comparables en moyenne, mais ce que je veux dire avec mon intrigue est quelque chose comme: "Alors que le classificateur A s'améliore, plus il y a de fonctionnalités, le classificateur B est meilleur quand moins de fonctionnalités sont présentes"
Modifiez 2 pour inclure mes tracés:
Rangs des algorithmes tracés en fonction du nombre de fonctionnalités
Rangs des algorithmes tracés par rapport au nombre classé d'entités
Donc, pour répéter la question du titre:
Est-il correct de tracer une droite de régression pour les données classées d'une corrélation / régression Spearman?