Le nettoyage des données est une étape préliminaire à l'analyse statistique dans laquelle l'ensemble de données est édité pour corriger les erreurs et le mettre sous une forme adaptée au traitement par un logiciel statistique.
Motivation Je travaille avec des ensembles de données contenant des informations d'identification personnelle (PII) et ayant parfois besoin de partager une partie d'un ensemble de données avec des tiers, de manière à ne pas exposer les PII et ne pas engager la responsabilité de mon employeur. Notre approche habituelle consiste …
Après avoir utilisé la science des données avec R, je me suis rendu compte que le nettoyage des mauvaises données est une partie très importante de la préparation des données pour analyse. Existe-t-il des meilleures pratiques ou processus pour nettoyer les données avant de les traiter? Si tel est le …
J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine d'essayer de faire …
Étant donné une phrase comme: Complimentary gym access for two for the length of stay ($12 value per person per day) Quelle approche générale puis-je adopter pour identifier le mot accès au gymnase ou au gymnase?
Ayant beaucoup de documents texte (en langage naturel, non structurés), quelles sont les façons possibles de les annoter avec des métadonnées sémantiques? Par exemple, considérons un court document: I saw the company's manager last day. Pour pouvoir en extraire des informations, celles-ci doivent être annotées avec des données supplémentaires pour …
Je travaille sur un défi Kaggle où certaines variables sont représentées par des lignes au lieu de colonnes (Telstra Network Disruption). Je suis actuellement à la recherche de l'équivalent de recueillir (), séparé () et réparti (), qui peut être trouvé dans l'outil R tidyr.
Je voudrais savoir comment faire correspondre les adresses postales lorsque leur format diffère ou lorsque l'une d'elles est mal orthographiée. Jusqu'à présent, j'ai trouvé différentes solutions mais je pense qu'elles sont assez anciennes et peu efficaces. Je suis sûr qu'il existe de meilleures méthodes, donc si vous avez des références …
Je travaille dans un bureau où SQL Server est l'épine dorsale de tout ce que nous faisons, du traitement des données au nettoyage en passant par le munging. Mon collègue est spécialisé dans l'écriture de fonctions complexes et de procédures stockées pour traiter méthodiquement les données entrantes afin qu'elles puissent …
J'ai une trame de données qui, entre autres, contient une colonne du nombre de millisecondes écoulées depuis 1970-1-1. Je dois convertir cette colonne d'entiers en données d'horodatage, afin que je puisse ensuite la convertir en une colonne de données datetime en ajoutant la série de colonnes d'horodatage à une série …
Je comprends ce que fait Standard Scalar et ce que fait Normalizer, selon la documentation de scikit: Normalizer , Standard Scaler . Je sais quand Standard Scaler est appliqué. Mais dans quel scénario le Normalizer est-il appliqué? Y a-t-il des scénarios où l'un est préféré à l'autre?
Je prototype une application et j'ai besoin d'un modèle de langage pour calculer la perplexité sur certaines phrases générées. Existe-t-il un modèle de langage formé en python que je peux facilement utiliser? Quelque chose de simple comme model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = …
Je travaille sur l'apprentissage automatique et la bioinformatique depuis un certain temps, et aujourd'hui j'ai eu une conversation avec un collègue sur les principaux problèmes généraux de l'exploration de données. Mon collègue (qui est un expert en apprentissage automatique) a déclaré que, selon lui, l'aspect pratique sans doute le plus …
Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle se concentre sur un problème uniquement en modifiant ce message . Fermé il y a 5 ans . Il semble que la plupart des …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.