Dans quelle mesure le traitement des données est-il problématique?


44

Je travaille actuellement en tant que data scientist dans une entreprise de vente au détail (mon premier emploi en tant que DS, cette question peut donc être le résultat de mon manque d'expérience). Ils ont un énorme arriéré de projets de science des données très importants qui auraient un impact positif considérable s'ils étaient mis en œuvre. Mais.

Les pipelines de données n'existent pas au sein de l'entreprise, la procédure standard consiste à ce qu'ils me remettent des gigaoctets de fichiers TXT chaque fois que j'ai besoin d'informations. Pensez à ces fichiers en tant que journaux tabulaires de transactions stockées dans une notation et une structure arcaniques. Aucune information complète n'est contenue dans une seule source de données et ils ne peuvent pas m'accorder l'accès à leur base de données ERP pour des "raisons de sécurité".

L'analyse initiale des données pour le projet le plus simple nécessite des conflits de données brutaux et insoutenables. Plus de 80% du temps d'un projet est consacré à l' analyse de ces fichiers et de sources de données croisées afin de créer des ensembles de données viables. Il ne s’agit pas simplement de traiter les données manquantes ou de les pré-traiter, mais bien de créer des données pouvant être traitées en premier lieu ( solutionnable par DBA ou par l’ingénierie des données, et non par la science des données? ).


1) On dirait que la plupart des travaux ne sont pas du tout liés à la science des données. Est-ce exact?

2) Je sais que ce n’est pas une entreprise axée sur les données avec un département d’ingénierie de données de haut niveau, mais j’estime que pour assurer la pérennité des projets de science des données, des niveaux minimums d’accessibilité aux données sont nécessaires . Ai-je tort?

3) Ce type de configuration est-il courant pour une entreprise ayant de graves besoins en informatique?


Avez-vous spécifié le format sur lequel vous souhaitez utiliser les informations? Et leur donner des instructions sur la façon de procéder avec leur ERP?
Jonnor le

@ Jonnor Bien sûr. Je travaille ici depuis près de deux ans maintenant et, depuis le premier jour, j’expliquais comment nous pourrions créer une meilleure plate-forme pour l’accessibilité des données. Cependant, il y a une forte résistance à changer ce que l'entreprise fait depuis 30 ans.
Victor Valente

13
Commencez à suivre vos heures et convertissez-les en un coût qui vous fait perdre votre temps à reconvertir le TXT en un format utilisable. Je vous parie que lorsqu'ils auront un chiffre en dollars, ils pourront le faire.
Nelson le

Si votre temps est compté, vous pouvez l'externaliser.
Sarcome

Je trouve déroutant qu'une entreprise embauche un scientifique des données tout en restant résistante au changement. Vous devriez leur montrer le temps perdu et le danger qu'il y a à conserver des données dans de longs fichiers TXT sans réelle sécurité
Pedro Henrique Monforte

Réponses:


27
  1. On dirait que la plupart des travaux ne sont pas du tout liés à la science des données. Est-ce exact?

    Oui

  2. Je sais que ce n’est pas une entreprise axée sur les données dotée d’un département d’ingénierie de données de haut niveau, mais j’estime que la science des données exige un minimum d’accessibilité aux données. Ai-je tort?

    Vous n'avez pas tort, mais telles sont les réalités de la vie réelle.

  3. Ce type de configuration est-il courant pour une entreprise ayant de graves besoins en informatique?

    Oui

D'un point de vue technique, vous devez rechercher des solutions ETL pouvant vous simplifier la vie. Parfois, un outil peut être beaucoup plus rapide qu'un autre pour lire certaines données. Par exemple, le readxl de R est des ordres de mangnitudes plus rapides que les pandas de python lors de la lecture de fichiers xlsx; vous pouvez utiliser R pour importer les fichiers, puis les enregistrer dans un format compatible Python (parquet, SQL, etc.). Je sais que vous ne travaillez pas sur des fichiers xlsx et je ne sais pas si vous utilisez Python. Ce n'était qu'un exemple.

D'un point de vue pratique, deux choses:

  • Tout d'abord, comprendre ce qui est techniquement possible. Dans de nombreux cas, les personnes qui vous disent que vous savez sont des analphabètes informatiques qui s’inquiètent de l’ordre commercial ou de la conformité, mais n’ont aucune idée de ce qui est réalisable et de ce qui est réalisable du point de vue informatique. Essayez de parler aux administrateurs de base de données ou à quiconque gère l'infrastructure de données. Comprendre ce qui est techniquement possible. ALORS, alors seulement, essayez de trouver un compromis. Par exemple, ils ne vous donneront pas accès à leur système, mais je suppose qu'il y a une base de données derrière? Peut-être qu'ils peuvent extraire les données vers d'autres formats? Peut-être qu'ils peuvent extraire les instructions SQL qui définissent les types de données, etc.?

  • Les hommes d’affaires sont plus susceptibles de vous aider si vous pouvez démontrer que cela est dans leur intérêt. S'ils ne croient même pas en ce que vous faites, pas de chance ...


2
Excellent point sur la recherche / construction d’une solution ETL. Juste besoin d'ajouter: choisissez une configuration avec laquelle vous êtes à l'aise et que vous pouvez facilement lire / déboguer. Dans les premières étapes de l'automatisation des tâches, cela est encore plus important que de rechercher l'outil de traitement de données le plus rapide. S'il s'agit de concerts de texte, il durera souvent du jour au lendemain et votre aisance à utiliser un outil, un cadre ou un langage peut faire la différence entre vous réveiller avec de bonnes données ou quelque chose que vous devez recommencer. Un simple exercice peut effacer les gains d'efficacité. Mieux vaut être stable avec moins de bugs que d'aller vite et trébucher.
Jason

2
Vrai. Mais aussi, ne suroptimisez pas. Choisissez judicieusement vos priorités. Si l'importation des données est unique, ne passez pas des jours à chercher comment réduire le temps d'importation de 2 heures à 30 minutes. Etc.
PythonGuest

39

De nombreux blogs, entreprises et journaux reconnaissent que cette situation est réelle dans bien des cas.

Dans cet article, la lutte contre le Big Data: défis et opportunités , cite une citation à ce sujet

les scientifiques de données passent de 50% à 80% de leur temps

collecte et préparation de données numériques indisciplinées.

Vous pouvez également lire la source de cette citation dans cet article du New York Times, Pour les scientifiques spécialistes des données volumineuses, "Le travail de concierge" est un obstacle clé à la compréhension.

Malheureusement, le monde réel ne ressemble pas à Kaggle. Vous n'obtenez pas un fichier CSV ou Excel que vous pouvez simplement lancer l'exploration de données avec un peu de nettoyage. Vous devez trouver les données dans un format qui ne convient pas à vos besoins.

Ce que vous pouvez faire est d’utiliser au mieux les anciennes données et d’essayer d’adapter le stockage de nouvelles données dans un processus plus facile pour vous (ou un futur collègue).



4
Forbes ne devrait nulle part être mentionné avec les mots "science des données".
Gented

50-80% sur la base de (citation) "entretiens et estimations d'experts"
oW_

3
@gented Commentaire basé sur les opinions d'un sondage d'opinion dans un article basé sur des opinions et placé sur une réponse basée sur des opinions à une question basée sur des opinions. Qui aurait pensé que vous trouveriez cela dans "Data Science" SE?
Keeta le

25

On dirait que la plupart des travaux ne sont pas du tout liés à la science des données. Est-ce exact?

Telle est la réalité de tout projet de science des données. En fait, Google l'a mesurée et a publié un article intitulé "Dette technique cachée dans les systèmes d'apprentissage automatique" https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

entrez la description de l'image ici

Le résultat de l'article reflète également mon expérience. La majeure partie du temps est consacrée à l'acquisition, au nettoyage et au traitement des données.


7
  1. On dirait que la plupart des travaux ne sont pas du tout liés à la science des données. Est-ce exact?

    La discussion des données est très certainement dans la description de poste de Data Scientist. À un certain niveau, vous devez comprendre le processus de génération de données afin de l'utiliser pour piloter des solutions. Bien sûr, une personne spécialisée dans ETL pourrait le faire plus rapidement / plus efficacement, mais recevoir des vidages de données n’est pas rare dans le monde réel. Si vous n'aimez pas cet aspect de la science des données, vous aurez peut-être l'occasion de travailler plus étroitement avec les ressources informatiques pour que les données soient correctement archivées dans un entrepôt auquel vous avez accès. Vous pouvez également trouver un travail qui contient déjà des données dans un meilleur ordre.

  2. Je sais que ce n’est pas une entreprise axée sur les données dotée d’un département d’ingénierie de données de haut niveau, mais j’estime que la science des données exige un minimum d’accessibilité aux données. Ai-je tort?

    Je pense que le niveau minimum est les fichiers txt. Si vous avez accès aux données via des fichiers texte, vous devriez avoir accès aux données de la base de données (appuyez dessus avec les supérieurs).

  3. Ce type de configuration est-il courant pour une entreprise ayant de graves besoins en informatique?

    Oui. Vous êtes le scientifique scientifique; vous êtes l'expert. Cela fait partie de votre travail d'éduquer les autres sur les inefficacités de la structure de données actuelle et sur la manière dont vous pouvez aider. Les données inutilisables n’aident personne. Vous avez la possibilité d'améliorer les choses et de façonner l'avenir de l'entreprise.


6

En tant qu’autre partant récent dans Data Science, je ne peux qu’ajouter que je ne pense pas que votre expérience soit unique, mon équipe d’environ 10 personnes n’a apparemment pas fait de DS depuis plus d’un an (un petit projet qui a occupé 2 des équipe). Cela est dû à la promesse d'un pipeline efficace sur lequel l'équipe a travaillé, mais qui ne fournit toujours pas les données. Apparemment, la rétention a été assez médiocre dans le passé et la promesse d'un environnement MS Azure en saint-graal pour les futurs projets DS est constante.

Donc pour répondre:

1) oui totalement précis

2) Non, vous avez raison, mais la bataille pour accéder aux données que vous souhaitez est ardue (si elles existent).

3) Je suis sûr qu'il y a des entreprises qui sont meilleures que les autres. Si vous ne pouvez pas supporter cela dans votre entreprise actuelle, une période de 2 ans est une durée décente, commencez à chercher des choses plus prometteuses (faites attention à la formulation de votre désir de quitter votre emploi actuel, par exemple "cherchez à travailler avec plus de dynamisme. l'équipe "sonnerait mieux que" mon ancienne société ne me donnera pas de données ").


5

Si vous considérez ceci du point de vue «ce n'est pas mon travail, alors pourquoi devrais-je le faire», alors il s'agit d'un problème général assez commun, qui n'est pas spécifique à la science des données. En fin de compte, votre travail consiste à faire ce que le patron vous dit de faire, mais dans la pratique, il n’ya guère de raison que le patron soit dictatorial à ce sujet et ils peuvent généralement être persuadés. Ou du moins ils vont vous donner une explication sincère de la raison pour laquelle cela doit être ainsi. Mais en ce qui concerne l’autorité, il n’existe pas de définition officielle de la "science des données" qui indique que vous ne pouvez nettoyer que X% au maximum. L’autorité appartient à celui qui vous paye, dans la mesure où il a légalement le droit de ne plus vous payer.

Vous pouvez également regarder les choses sous un autre angle: est-ce une bonne utilisation de votre temps? On dirait que vous avez pris un travail pour effectuer certaines tâches (que vous voulez dire par "science des données") mais que vous devez faire autre chose (que vous appelez "données conflictuelles"). Les descriptions de travail et les sentiments personnels sont un peu plus loin ici car il y a quelque chose de plus pertinent: l'entreprise vous verse probablement une bonne somme d'argent pour faire quelque chose que vous seul pouvez faire (la science des données). Mais vous devez plutôt faire d’autres tâches, qui pourraient être confiées à d’autres personnes plus capables, plus motivées ou moins chères. Si la bataille des données peut être résolue par une personne gagnant la moitié de votre salaire, cela n'a aucun sens de vous payer deux fois plus pour faire la même chose. Si cela pouvait être fait plus vitepar quelqu'un payé le même salaire, la même logique s'applique. Par conséquent, demander à l'entreprise de vous attribuer cette tâche est un gaspillage de ressources (en particulier d'argent). Dans cette perspective, vous trouverez peut-être beaucoup plus facile de faire voir à vos supérieurs votre côté des choses.

Bien sûr, au bout du compte, il faut que quelqu'un se charge de la gestion des données. Il se peut que le moyen le moins cher, le plus rapide et le plus simple de le faire - la meilleure personne pour le poste, c’est vous. Dans ce cas, vous n'avez pas de chance. Vous pouvez essayer de prétendre que cela ne fait pas partie de votre contrat, mais quelles sont les chances qu'ils soient assez naïfs pour inclure quelque chose d'aussi spécifique dans le contrat?


3

Peut-être pour le dire simplement:

  • En créant des variables et en combinant des valeurs numériques, le feriez-vous à l'aveuglette ou après l'analyse de vos données?
  • Lorsque vos pairs révisent vos conclusions, s’ils avaient des questions sur des éléments de données particuliers, cela vous gênerait-il de ne pas les connaître?

Vous devez travailler avec et comprendre vos données - ce qui inclut des opérations simples allant de la résolution d'incohérences (NULL, chaînes vides, "-") à la compréhension du passage d'une donnée à son affichage. Le traitement implique la connaissance des mêmes informations, donc c'est en partie un travail que vous auriez dû faire de toute façon.

Il semble maintenant que cette société pourrait tirer parti de la création d’une sorte d’instance gratuite de MySQL (ou similaire) pour stocker vos données. Essayer de faire preuve de souplesse lors de la conception de votre code de conflit est également une bonne idée - disposer d'un jeu de données intermédiaire de données traitées serait utile si vous y êtes autorisé (et que vous ne pouvez pas le faire dans MySQL).

Mais bien sûr, vous configurez toujours les choses à partir de rien. Ce n'est pas un processus facile, mais cette "expérience d'apprentissage" est au moins une bonne chose à mettre dans votre CV.


3

1) On dirait que la plupart des travaux ne sont pas du tout liés à la science des données. Est-ce exact? À mon avis, Data Science ne peut pas sortir de la dispute de données. Mais, comme vous l'avez dit, la question se poserait de savoir quel pourcentage de Data Wrangling doit faire un Data Scientist. Cela dépend de la bande passante des organisations et de l'intérêt de la personne pour un tel travail. Dans mon expérience de 15 à 16 ans en tant que DS, j'ai toujours consacré environ 60% à 70% de l'activité de lutte aux données et passé au maximum 15% du temps à une analyse réelle. alors prenez votre appel.

2) Je sais que ce n’est pas une entreprise axée sur les données dotée d’un département d’ingénierie de données de haut niveau, mais j’estime que la science des données requiert des niveaux minimaux d’accessibilité aux données. Ai-je tort? Là encore, cela dépend des politiques de sécurité de l'organisation. Ils ne peuvent pas tout vous laisser et ils ont leurs propres problèmes de sécurité pour révéler les données à une personne qui est un employé temporaire (désolé d'utiliser ces mots :-()

3) Ce type de configuration est-il courant pour une entreprise ayant de graves besoins en informatique? Je pense que ce type d'entreprises a besoin de plus d'attention de la part des scientifiques de données pour se rendre compte que la modélisation basée sur les données est l'avenir pour pérenniser leurs activités. :-)

J'ai apporté ma contribution en pensant aux entreprises plutôt qu'aux points de vue techniques. :-) J'espère que je suis clair dans mon choix de mots.


3

Dans son exposé "Le Big Data, quatre problèmes différents", Michael Stonebraker, lauréat du prix Turing, mentionne ce problème comme un gros problème ( vidéo , diapositives ).

Il affirme qu'il existe un certain nombre de problèmes non résolus dans ce domaine: ingestion, transformation (par exemple euro / dollar), propreté (par exemple-99 / nulle), cartographie de schéma (par exemple salaire / salaire), consolidation d'entités (par exemple Mike Stonebraker / Michael Briseur de pierre)

Un certain nombre de sociétés / produits tentent de résoudre ce problème, tels que Tamr, Alteryx, Trifacta, Paxata, Google raffinement, qui travaillent pour résoudre ce problème.

Jusqu'à ce que cette zone soit mûre, une grande partie du travail de Data Scientist sera en effet une bataille de données.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.