Questions marquées «data-cleaning»

4
Nettoyage des données de format incohérent dans R?
Je traite souvent des données d'enquête en désordre qui nécessitent beaucoup de nettoyage avant de pouvoir effectuer des statistiques. J'avais l'habitude de le faire "manuellement" dans Excel, parfois en utilisant des formules Excel, et parfois en vérifiant les entrées une par une. J'ai commencé à faire de plus en plus …
16 r  data-cleaning 

1
État de l'art en matière de déduplication
Quelles sont les méthodes de pointe en matière de déduplication des enregistrements? La déduplication est aussi parfois appelée: couplage d'enregistrements, résolution d'entité, résolution d'identité, fusion / purge. Je connais par exemple CBLOCK [1]. J'apprécierais que les réponses incluent également des références aux logiciels existants mettant en œuvre les méthodes. Je …


3
Nettoyage automatique des données
Un problème courant est que le ML est la mauvaise qualité des données: erreurs dans les valeurs des entités, instances mal classées, etc., etc. Une façon de résoudre ce problème consiste à parcourir manuellement les données et à vérifier, mais existe-t-il d'autres techniques? (Je parie qu'il y en a!) Quels …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.