J'ai un bloc de données de pandas avec plusieurs entrées et je veux calculer la corrélation entre les revenus de certains types de magasins. Il existe un certain nombre de magasins avec des données sur le revenu, une classification du domaine d'activité (théâtre, magasins de tissus, alimentation ...) et d'autres données.
J'ai essayé de créer un nouveau bloc de données et d'insérer une colonne avec le revenu de tous les types de magasins appartenant à la même catégorie. Le bloc de données renvoyé n'a que la première colonne remplie et le reste est rempli de NaN. Le code que j'ai fatigué:
corr = pd.DataFrame()
for at in activity:
stores.loc[stores['Activity']==at]['income']
Je souhaite le faire afin de .corr()
pouvoir donner la matrice de corrélation entre les catégories de magasins.
Après cela, j'aimerais savoir comment tracer les valeurs de la matrice (-1 à 1, car je veux utiliser la corrélation de Pearson) avec matplolib.