J'ai le dataframe pandas suivant Top15
:
Je crée une colonne qui estime le nombre de documents pouvant être cités par personne:
Top15['PopEst'] = Top15['Energy Supply'] / Top15['Energy Supply per Capita']
Top15['Citable docs per Capita'] = Top15['Citable documents'] / Top15['PopEst']
Je veux connaître la corrélation entre le nombre de documents citables par habitant et l'approvisionnement énergétique par habitant. J'utilise donc la .corr()
méthode (corrélation de Pearson):
data = Top15[['Citable docs per Capita','Energy Supply per Capita']]
correlation = data.corr(method='pearson')
Je souhaite renvoyer un seul numéro, mais le résultat est:
.corr
directement à votre dataframe, il renverra toutes les corrélations par paires; c'est pourquoi vous observez alors des 1 à la diagonale de votre matrice (chaque colonne est parfaitement corrélée avec elle-même). Voir ma modification ci-dessous.