Questions marquées «data-cleaning»

Le nettoyage des données est une étape préliminaire à l'analyse statistique dans laquelle l'ensemble de données est édité pour corriger les erreurs et le mettre sous une forme adaptée au traitement par un logiciel statistique.

6
Comment puis-je transformer des noms en un ensemble de données confidentielles pour le rendre anonyme, tout en préservant certaines caractéristiques des noms?
Motivation Je travaille avec des ensembles de données contenant des informations d'identification personnelle (PII) et ayant parfois besoin de partager une partie d'un ensemble de données avec des tiers, de manière à ne pas exposer les PII et ne pas engager la responsabilité de mon employeur. Notre approche habituelle consiste …

7
Processus organisés pour nettoyer les données
Après avoir utilisé la science des données avec R, je me suis rendu compte que le nettoyage des mauvaises données est une partie très importante de la préparation des données pour analyse. Existe-t-il des meilleures pratiques ou processus pour nettoyer les données avant de les traiter? Si tel est le …
34 r  data-cleaning 

1


4
Comment annoter des documents texte avec des métadonnées?
Ayant beaucoup de documents texte (en langage naturel, non structurés), quelles sont les façons possibles de les annoter avec des métadonnées sémantiques? Par exemple, considérons un court document: I saw the company's manager last day. Pour pouvoir en extraire des informations, celles-ci doivent être annotées avec des données supplémentaires pour …



4
Comment faire une correspondance floue des adresses postales?
Je voudrais savoir comment faire correspondre les adresses postales lorsque leur format diffère ou lorsque l'une d'elles est mal orthographiée. Jusqu'à présent, j'ai trouvé différentes solutions mais je pense qu'elles sont assez anciennes et peu efficaces. Je suis sûr qu'il existe de meilleures méthodes, donc si vous avez des références …




3
Existe-t-il de bons modèles de langage prêts à l'emploi pour python?
Je prototype une application et j'ai besoin d'un modèle de langage pour calculer la perplexité sur certaines phrases générées. Existe-t-il un modèle de langage formé en python que je peux facilement utiliser? Quelque chose de simple comme model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
Combien de données sont suffisantes pour former mon modèle d'apprentissage automatique?
Je travaille sur l'apprentissage automatique et la bioinformatique depuis un certain temps, et aujourd'hui j'ai eu une conversation avec un collègue sur les principaux problèmes généraux de l'exploration de données. Mon collègue (qui est un expert en apprentissage automatique) a déclaré que, selon lui, l'aspect pratique sans doute le plus …

3
Meilleures langues pour le calcul scientifique [fermé]
Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle se concentre sur un problème uniquement en modifiant ce message . Fermé il y a 5 ans . Il semble que la plupart des …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.