Science des données data-cleaning

6

Comment puis-je transformer des noms en un ensemble de données confidentielles pour le rendre anonyme, tout en préservant certaines caractéristiques des noms?

Motivation Je travaille avec des ensembles de données contenant des informations d'identification personnelle (PII) et ayant parfois besoin de partager une partie d'un ensemble de données avec des tiers, de manière à ne pas exposer les PII et ne pas engager la responsabilité de mon employeur. Notre approche habituelle consiste …

42 data-cleaning anonymization

7

Processus organisés pour nettoyer les données

Après avoir utilisé la science des données avec R, je me suis rendu compte que le nettoyage des mauvaises données est une partie très importante de la préparation des données pour analyse. Existe-t-il des meilleures pratiques ou processus pour nettoyer les données avant de les traiter? Si tel est le …

34 r data-cleaning

1

Pourquoi xgboost est-il tellement plus rapide que sklearn GradientBoostingClassifier?

J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine d'essayer de faire …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

3

Approche générale pour extraire le texte clé d'une phrase (nlp)

Étant donné une phrase comme: Complimentary gym access for two for the length of stay ($12 value per person per day) Quelle approche générale puis-je adopter pour identifier le mot accès au gymnase ou au gymnase?

27 machine-learning nlp text-mining data-cleaning

4

Comment annoter des documents texte avec des métadonnées?

Ayant beaucoup de documents texte (en langage naturel, non structurés), quelles sont les façons possibles de les annoter avec des métadonnées sémantiques? Par exemple, considérons un court document: I saw the company's manager last day. Pour pouvoir en extraire des informations, celles-ci doivent être annotées avec des données supplémentaires pour …

18 nlp metadata data-cleaning text-mining

3

existe-t-il un outil de rangement des données pour python / pandas similaire à l'outil tidyr R?

Je travaille sur un défi Kaggle où certaines variables sont représentées par des lignes au lieu de colonnes (Telstra Network Disruption). Je suis actuellement à la recherche de l'équivalent de recueillir (), séparé () et réparti (), qui peut être trouvé dans l'outil R tidyr.

18 r python dataset data-cleaning pandas

1

supprimer des chaînes après un certain caractère dans un texte donné

J'ai un ensemble de données comme celui ci-dessous. Je souhaite supprimer tous les caractères après le caractère ©. Comment puis-je faire cela dans R? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)

15 r data-cleaning

4

Comment faire une correspondance floue des adresses postales?

Je voudrais savoir comment faire correspondre les adresses postales lorsque leur format diffère ou lorsque l'une d'elles est mal orthographiée. Jusqu'à présent, j'ai trouvé différentes solutions mais je pense qu'elles sont assez anciennes et peu efficaces. Je suis sûr qu'il existe de meilleures méthodes, donc si vous avez des références …

14 text-mining data-cleaning

5

Les bibliothèques R et / ou Python modernes rendent-elles SQL obsolète?

Je travaille dans un bureau où SQL Server est l'épine dorsale de tout ce que nous faisons, du traitement des données au nettoyage en passant par le munging. Mon collègue est spécialisé dans l'écriture de fonctions complexes et de procédures stockées pour traiter méthodiquement les données entrantes afin qu'elles puissent …

14 python r data-cleaning data sql

1

Convertir une colonne pandas d'int en type de données d'horodatage

J'ai une trame de données qui, entre autres, contient une colonne du nombre de millisecondes écoulées depuis 1970-1-1. Je dois convertir cette colonne d'entiers en données d'horodatage, afin que je puisse ensuite la convertir en une colonne de données datetime en ajoutant la série de colonnes d'horodatage à une série …

13 python time-series data-cleaning pandas

2

Quand utiliser Standard Scaler et quand Normalizer?

Je comprends ce que fait Standard Scalar et ce que fait Normalizer, selon la documentation de scikit: Normalizer , Standard Scaler . Je sais quand Standard Scaler est appliqué. Mais dans quel scénario le Normalizer est-il appliqué? Y a-t-il des scénarios où l'un est préféré à l'autre?

12 python scikit-learn data-cleaning normalization

3

Existe-t-il de bons modèles de langage prêts à l'emploi pour python?

Je prototype une application et j'ai besoin d'un modèle de langage pour calculer la perplexité sur certaines phrases générées. Existe-t-il un modèle de langage formé en python que je peux facilement utiliser? Quelque chose de simple comme model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

Combien de données sont suffisantes pour former mon modèle d'apprentissage automatique?

Je travaille sur l'apprentissage automatique et la bioinformatique depuis un certain temps, et aujourd'hui j'ai eu une conversation avec un collègue sur les principaux problèmes généraux de l'exploration de données. Mon collègue (qui est un expert en apprentissage automatique) a déclaré que, selon lui, l'aspect pratique sans doute le plus …

11 machine-learning data-mining dataset data-cleaning data

3

Meilleures langues pour le calcul scientifique [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle se concentre sur un problème uniquement en modifiant ce message . Fermé il y a 5 ans . Il semble que la plupart des …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

2

Création de nouvelles colonnes en itérant sur les lignes dans la trame de données pandas

J'ai une trame de données pandas (X11) comme celle-ci: en réalité, j'ai 99 colonnes jusqu'à dx99 dx1 dx2 dx3 dx4 0 25041 40391 5856 0 1 25041 40391 25081 5856 2 25041 40391 42822 0 3 25061 40391 0 0 4 25041 40391 0 5856 5 40391 25002 5856 3569 …

10 python data-cleaning pandas anaconda

Questions marquées «data-cleaning»