J'ai un dataframe avec des valeurs de répétition dans la colonne A. Je veux supprimer les doublons, en conservant la ligne avec la valeur la plus élevée dans la colonne B.
Donc ça:
A B
1 10
1 20
2 30
2 40
3 10
Devrait se transformer en ceci:
A B
1 20
2 40
3 10
Wes a ajouté quelques fonctionnalités intéressantes pour supprimer les doublons: http://wesmckinney.com/blog/?p=340 . Mais AFAICT, il est conçu pour les doublons exacts, il n'y a donc aucune mention de critères pour sélectionner les lignes à conserver.
Je suppose qu'il y a probablement un moyen facile de le faire - peut-être aussi simple que de trier le dataframe avant de supprimer les doublons - mais je ne connais pas assez bien la logique interne de groupby pour le comprendre. Aucune suggestion?