Qu'est-ce qu'un scientifique?


181

Ayant récemment obtenu mon doctorat en statistique, je cherchais depuis quelques mois un travail dans le domaine des statistiques. Presque toutes les entreprises que j'ai considérées affichaient une offre d'emploi portant le titre " Data Scientist ". En fait, on avait l'impression que les titres d'emploi de chercheur en statistique ou de statisticien étaient révolus . Etre un informaticien avait-il vraiment remplacé ce qu'était un statisticien ou les titres étaient-ils synonymes, me demandais-je?

Eh bien, la plupart des qualifications pour les emplois semblaient être des choses qui pourraient être qualifiées sous le titre de statisticien. La plupart des emplois demandaient un doctorat en statistique ( ), la plupart des connaissances requises du modèle expérimental ( ), de la régression linéaire et de anova ( ), des modèles linéaires généralisés ( ) et d’autres méthodes à plusieurs variables telles que la PCA ( ) , ainsi que des connaissances dans un environnement informatique statistique tel que R ou SAS ( ). On dirait qu’un scientifique des données n’est en réalité qu’un nom de code pour un statisticien.✓ ✓

Cependant, chaque interview à laquelle je suis allé commençait par la question: "Alors, connaissez-vous les algorithmes d'apprentissage automatique?" Le plus souvent, je me suis retrouvé dans l'obligation de répondre à des questions sur le Big Data, l'informatique haute performance et des sujets relatifs aux réseaux de neurones, au CART, aux machines à vecteurs de support, aux arbres boosters, aux modèles non supervisés, etc. Bien sûr, je suis convaincu questions statistiques au cœur, mais à la fin de chaque entretien, je ne pouvais pas m'empêcher de partir avec le sentiment de savoir de moins en moins ce qu'est un scientifique des données.

Je suis un statisticien, mais suis-je un informaticien? Je travaille sur des problèmes scientifiques alors je dois être scientifique! Et aussi je travaille avec des données, donc je dois être un informaticien! Et selon Wikipedia, la plupart des universitaires seraient d'accord avec moi ( https://en.wikipedia.org/wiki/Data_science , etc.)

Bien que l'utilisation du terme "science des données" ait explosé dans les environnements professionnels, de nombreux universitaires et journalistes ne font aucune distinction entre la science des données et les statistiques.

Mais si je participe à toutes ces entrevues pour occuper un poste de spécialiste des données, pourquoi a-t-on l'impression de ne jamais me poser de questions statistiques?

Après ma dernière entrevue, je voulais vraiment faire appel à un bon scientifique et j'ai recherché des données pour résoudre ce problème (hé, je suis un scientifique, après tout). Cependant, après de nombreuses recherches Google plus tard, je me suis retrouvé là où j'ai commencé à me sentir comme si je me débattais encore une fois avec la définition de ce qu'est un scientifique des données. Je ne savais pas ce qu'était exactement un scientifique, car il y avait tellement de définitions, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) mais il semblait que tout le monde me disait que je voulais en être un:

En fin de compte, ce que j’ai compris, c’est «qu’est un informaticien», c’est une question très difficile à répondre. Heck, il y a eu deux mois entiers à Amstat où ils ont consacré du temps à tenter de répondre à cette question:

Pour le moment, je dois être un statisticien sexy pour être un spécialiste des données, mais j'espère que la communauté validée par la croix pourra peut-être nous éclairer un peu et m'aider à comprendre ce que cela signifie. Tous les statisticiens ne sont-ils pas des scientifiques de données?


(Edit / Update)

Je pensais que cela pourrait pimenter la conversation. Je viens de recevoir un courrier électronique de l'American Statistical Association au sujet d'un poste proposé par Microsoft à la recherche d'un scientifique. Voici le lien: Data Scientist Position . Je pense que cela est intéressant car le rôle du poste touche beaucoup de traits spécifiques dont nous avons parlé, mais je pense que bon nombre d’entre eux exigent des connaissances très rigoureuses en statistiques et contredisent bon nombre des réponses données ci-dessous. Au cas où le lien disparaîtrait, voici les qualités que Microsoft recherche chez un informaticien:

Exigences de base et compétences:

Expérience du domaine d'activité avec Analytics

  • Doit avoir une expérience dans plusieurs domaines commerciaux pertinents dans l'utilisation des compétences de pensée critique pour conceptualiser des problèmes métier complexes et leurs solutions à l'aide d'analyses avancées dans des ensembles de données métier à grande échelle et dans le monde réel
  • Le candidat doit être capable de gérer de manière indépendante des projets analytiques et d’aider nos clients internes à comprendre les résultats et à les traduire en actions bénéfiques pour leur entreprise.

Modélisation prédictive

  • Expérience dans tous les secteurs de la modélisation prédictive
  • Définition du problème métier et modélisation conceptuelle avec le client pour établir des relations importantes et définir la portée du système

Statistiques / économétrie

  • Analyse de données exploratoire pour les données continues et catégorielles
  • Spécification et estimation d'équations de modèle structurelles pour le comportement des entreprises et des consommateurs, les coûts de production, la demande de facteurs, le choix discret et d'autres relations technologiques, si nécessaire
  • Techniques statistiques avancées pour analyser des données continues et catégoriques
  • Analyse de séries chronologiques et mise en œuvre de modèles de prévision
  • Connaissance et expérience du travail avec des problèmes à variables multiples
  • Capacité à évaluer l'exactitude des modèles et à effectuer des tests de diagnostic
  • Capacité à interpréter des statistiques ou des modèles économiques
  • Connaissance et expérience de la construction de simulations à événements discrets et de modèles de simulation dynamiques

Gestion de données

  • Familiarité avec l'utilisation de T-SQL et de l'analyse pour la transformation de données et l'application de techniques d'exploration de données exploratoires pour de très grands ensembles de données du monde réel
  • Attention portée à l'intégrité des données, y compris la redondance des données, la précision des données, les valeurs anormales ou extrêmes, les interactions de données et les valeurs manquantes.

Compétences en communication et collaboration

  • Travailler de manière indépendante et capable de travailler avec une équipe de projet virtuelle qui recherchera des solutions innovantes pour résoudre des problèmes complexes.
  • Collaborer avec des partenaires, appliquer des compétences de pensée critique et mener des projets analytiques de bout en bout
  • Excellentes aptitudes à la communication verbale et écrite
  • Visualisation des résultats analytiques sous une forme utilisable par un ensemble divers de parties prenantes

Progiciels

  • Progiciels statistiques / économétriques avancés: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
  • Exploration, visualisation et gestion des données: outils T-SQL, Excel, PowerBI et équivalents

Qualifications:

  • Minimum de 5 ans d'expérience pertinente requise
  • Un diplôme d'études supérieures dans un domaine quantitatif est souhaitable.

6
Bonne question! Je me suis souvent posé la question à ce sujet. À mes yeux, il semble que les emplois qui incluent des scientifiques de données dans la description recherchent des personnes pouvant appliquer des méthodes statistiques / de BC qui évoluent bien, pas nécessairement des personnes capables de traiter avec la théorie. Je pense toujours qu'il y a une certaine redondance dans ces descriptions de travail. Exiger un doctorat est probablement souvent une surqualification et les responsables des ressources humaines qui élaborent ces descriptions de postes sont fortement influencés par le buzz autour du Big Data. Est-ce qu'un scientifique de données est un statisticien ou vice-versa est la principale question à laquelle je veux voir une réponse.
Gumeo

4
Je pense que c'est un excellent article qui traite en quelque sorte de ce changement de culture entre statisticien et informaticien: projecteuclid.org/download/pdf_1/euclid.ss/1009213726
RustyStatistician

6
"Mais si je participe à toutes ces entrevues pour occuper un poste d'informaticien, pourquoi a-t-on l'impression de ne jamais me poser de questions statistiques" ... histoire de ma vie ... littéralement LOL !!! Je pense que la science des données, les statistiques, l'économétrie, le biostat, etc. etc. Ils se chevauchent considérablement, mais ils utilisent tous un jargon différent qui rend la communication difficile (surtout lorsque vous êtes interrogé par une personne des ressources humaines qui n'est pas bien informée et qui se concentre sur les mots clés). Espérons que des efforts interdisciplinaires accrus et une ouverture d’esprit si nécessaire feront changer cela à l’avenir.
Zachary Blumenfeld

9
J'ai suivi la "montée en puissance du scientifique des données" depuis qu'il est devenu courant en 2008 environ. Pour moi, il s'agissait d'un terme marketing qui alimentait un battage publicitaire - les statistiques des disciplines, l'apprentissage automatique, l'ingénierie des données, l'analyse des données même avec une emphase différente. Paraphrasant G. Box: Si des questions telles que "Êtes-vous bayésien, fréquentiste, analyste de données, concepteur d'expériences, informaticien?" Dis oui".
Momo

10
@Momo: Néanmoins, si vous ouvrez l'un des manuels de plus de 600 pages appelé "Apprentissage automatique" (ou similaire) et l'un des manuels appelés "Statistiques" (ou similaire), il y aura très peu de chevauchement. La reconnaissance des formes de My Bishop et l'apprentissage automatique ou l' apprentissage automatique de Murphy n'ont pratiquement aucune intersection avec la théorie de Lehman & Casella de l'estimation ponctuelle , l' inférence statistique Casella & Berger , ou l' analyse de données d'expériences de Maxwell & Delaney . Ils sont si différents que je pense que les personnes familiarisées avec une série de livres pourraient avoir du mal à lire l’autre.
amibe

Réponses:


52

Il y a quelques définitions humoristiques qui n'ont pas encore été données:

Data Scientist: Quelqu'un qui fait des statistiques sur un Mac.

J'aime celui-ci, car il joue bien sur l'angle plus hype-que-substance.

Data Scientist: Un statisticien résidant à San Francisco.

De même, cela riffs sur la côte ouest de tout cela.

Personnellement, je trouve la discussion (en général et ici) un peu ennuyeuse et répétitive. Quand je pensais à ce que je voulais — peut-être il y a un quart de siècle ou plus — je voulais un analyste quantitatif. C’est toujours ce que je fais (et que j’aime!) Et cela recouvre en grande partie ce qui a été donné ici dans diverses réponses.

(Remarque: il existe une source plus ancienne pour citer deux mais je ne la trouve pas pour le moment.)


27
+1 I find the discussion (in general, and here) somewhat boring and repetitiveet vains discours de bagatelles ou de nouveaux mots à la mode, ajouterais-je. Je ne peux toujours pas faire la différence entre les scientifiques de données, les scientifiques chrétiens et les scientifiques de données.
Le

1
Scientifiques LOL @ data.
Dsaxton

4
Et je tire mon chapeau à la personne très sérieuse (bien entendu anonyme) qui vient de passer, qui a un vote négatif et qui n'a pas laissé de raison. Indice: Ce n'est pas comme ça que la discussion s'améliore.
Dirk Eddelbuettel

1
En tant que statisticien du sud de San Francisco qui lutte très activement contre le titre Data Scientist, la deuxième définition est trop proche de chez moi (mais je n’étais pas le vainqueur).
Cliff AB

1
(+1) @CliffAB Je suis aussi un statisticien du sud de San Francisco.
RustyStatistician

87

Les gens définissent la science des données différemment, mais je pense que la partie commune est:

  • connaissance pratique de la gestion des données,
  • compétences pratiques en programmation.

Contrairement à son nom, il s'agit rarement d'une "science". En d’autres termes, dans la science des données, l’accent est mis sur les résultats pratiques (comme en ingénierie), et non sur les preuves, la pureté mathématique ou la rigueur caractéristiques de la science universitaire. Les choses doivent fonctionner, et il y a peu de différence si elles sont basées sur un document académique, l'utilisation d'une bibliothèque existante, votre propre code ou un piratage impromptu.

Le statisticien n’est pas nécessaire en tant que programmeur (peut utiliser un stylo et du papier et un logiciel dédié). En outre, certains appels en sciences du traitement des données n’ont rien à voir avec les statistiques. Par exemple, il s’agit de l’ingénierie des données, comme le traitement des mégadonnées, même si les calculs les plus avancés sont calculés en moyenne (par contre, je n’appellerais pas cette activité "la science des données"). De plus, la "science des données" fait fureur, de sorte que les emplois liés de manière tangentielle utilisent ce titre - pour attirer les candidats ou créer le moi des travailleurs actuels.

J'aime la taxonomie de la réponse de Michael Hochster à Quora :

Scientifique de données de type A: le A est pour l'analyse. Ce type vise principalement à donner un sens aux données ou à les utiliser de manière assez statique. Le scientifique de données de type A ressemble beaucoup à un statisticien (et peut-être en est un), mais il connaît tous les détails pratiques du travail avec des données qui ne sont pas enseignées dans le programme de statistiques: nettoyage des données, méthodes de traitement de très grands ensembles de données, visualisation , connaissance approfondie d’un domaine particulier, rédaction de données, etc.

Scientifique en données de type B: le B est pour le bâtiment. Données de type B Les scientifiques partagent certaines connaissances statistiques avec le type A, mais ils sont également des codeurs très puissants et peuvent être des ingénieurs en logiciel qualifiés. Les scientifiques de données de type B sont principalement intéressés par l’utilisation de données «en production». Ils construisent des modèles qui interagissent avec les utilisateurs, émettant souvent des recommandations (produits, personnes connues, annonces, films, résultats de recherche).

En ce sens, le scientifique de type A est un statisticien capable de programmer. Mais, même pour une partie quantitative, il peut y avoir des personnes ayant plus de connaissances en informatique (par exemple, apprentissage automatique) que des statistiques habituelles, ou des personnes se concentrant par exemple sur la visualisation de données.

Et le diagramme de Venn de Data Science (ici: piratage ~ programmation):

Le diagramme de Venn de Data Science

voir aussi les autres diagrammes de Venn ( ceci et cela ). Ou même un tweet , tout en humour, montrant une liste équilibrée des compétences et activités typiques d'un scientifique de données:

un scientifique de données devrait pouvoir

Voir aussi ce post: Data scientist - statisticien, programmeur, consultant et visualiseur? .


14
J'aime le tweet. J'ajouterais qu'il devrait également savoir comment préparer des pizzas, faire pousser ses propres légumes écologiques, écrire de la poésie et danser la salsa :)
Tim

3
Petit bémol: toutes les "sciences" ne mettent pas l'accent sur "les preuves ou la pureté mathématique". Pensez par exemple à la biologie.
amibe

2
Qu'est-ce que cela signifie de pirater une valeur p? Il me semble que quelqu'un (c'est-à-dire le client) a une cible de valeur p spécifiée et que l'informaticien est censé couper et couper en dés les données pour atteindre la cible de valeur p. Ou est-ce censé vouloir dire quelque chose de différent?
emory

2
@amory Ce tweet est humoristique (c'est un pastishe d'un paragraphe de en.wikiquote.org/wiki/Time_Enough_for_Love , "Un être humain devrait pouvoir [lister]. La spécialisation est réservée aux insectes."). "Pirater une valeur p" est certainement une pratique obscure (malheureusement répandue dans certaines disciplines universitaires), et (j'espère) est ici pour plaisanter.
Piotr Migdal

4
+1 pour la remarque sur le fait de ne pas appeler quelqu'un de Data Scientist qui calcule des "statistiques" simplistes sur d'énormes jeux de données. Je pense que nous sortons d'une phase de Data Science où des informaticiens spécialisés dans l'informatique en cluster (Hadoop, etc.) ont été étiquetés "Data Scientists". Je ne méprise pas ces compétences, mais elles ne sont pas aussi importantes que les compétences en statistique, en raisonnement et en investigation, et la technologie évolue au-delà de la réduction cartographique.
Wayne

42

Il existe un certain nombre d'enquêtes dans le domaine de la science des données. J'aime celui- ci, car il tente d'analyser les profils des personnes qui occupent des emplois dans le domaine de la science des données. Au lieu d'utiliser des preuves anecdotiques ou les préjugés de l'auteur, ils utilisent des techniques de science des données pour analyser leur ADN.

Il est assez révélateur d'examiner les compétences répertoriées par les experts en données. Notez que les 20 compétences principales contiennent beaucoup de compétences informatiques.

Dans le monde actuel, on s'attend à ce qu'un scientifique des données soit un homme à tout faire; un auto-apprenant qui possède de solides bases quantitatives, une aptitude à la programmation, une curiosité intellectuelle infinie et de grandes compétences en communication.

entrez la description de l'image ici

MISE À JOUR:

Je suis un statisticien, mais suis-je un informaticien? Je travaille sur des problèmes scientifiques alors je dois être scientifique!

Si vous faites un doctorat, vous êtes probablement déjà un scientifique, surtout si vous avez publié des articles et mené des recherches actives. Vous n'avez cependant pas besoin d'être un scientifique pour être un scientifique. Un doctorat est exigé dans certaines entreprises, comme Walmart (voir ci-dessous), mais les scientifiques spécialisés dans les données possèdent généralement un diplôme de licence et une maîtrise, comme le montrent les exemples ci-dessous.

Comme vous pouvez le voir dans le tableau ci-dessus, vous devrez probablement posséder de bonnes compétences en programmation et en manipulation de données. En outre, la science des données est souvent associée à un certain niveau, souvent "approfondi", d'expertise en apprentissage automatique. Si vous avez un doctorat en statistiques, vous pouvez certainement vous appeler un informaticien. Cependant, les doctorats en informatique des grandes écoles peuvent être plus compétitifs que les diplômés des statistiques, car ils possèdent peut-être de solides connaissances en statistiques appliquées complétées par de solides compétences en programmation, une combinaison recherchée par les employeurs. Pour les contrer, vous devez acquérir de solides compétences en programmation afin d'être très compétitif. Ce qui est intéressant, c’est que généralement tous les doctorants en statistique ont une certaine expérience en programmation, mais dans le domaine de la science des données, les exigences sont souvent beaucoup plus élevées que cela,

Pour moi, l’avantage d’avoir un doctorat en statistiques réside dans le problème décrit dans le reste de l’expression "un homme à tout faire" qui est généralement abandonné: "un maître de rien". C'est bien d'avoir des gens qui connaissent un peu tout, mais je cherche toujours des gens qui savent aussi quelque chose de très profond, que ce soit les statistiques ou l'informatique, ce n'est pas si important. Ce qui compte, c’est que le gars soit capable d’aller au fond des choses, c’est une qualité pratique lorsque vous en avez besoin.

L'enquête répertorie également les meilleurs employeurs de data scientistes. Microsoft est apparemment au top, ce qui m'a surpris. Si vous souhaitez avoir une meilleure idée de ce qu'ils recherchent, il est utile de rechercher LinkeIn avec «science des données» dans la section Emplois. Vous trouverez ci-dessous deux extraits des travaux de MS et Walmart à LinkedIn pour faire valoir un point.

  • Microsoft Data Scientist

    • 5+ années d'expérience en développement logiciel dans la construction de systèmes / services de traitement de données
    • Baccalauréat ou qualifications supérieures en informatique, en EE ou en mathématiques avec une spécialisation en statistique, en extraction de données ou en apprentissage automatique.
    • Excellentes compétences en programmation (C #, Java, Python, etc.) pour manipuler des données à grande échelle
    • Connaissance pratique de Hadoop ou d'une autre technologie de traitement de données volumineuses
    • La connaissance des produits d'analyse (R, SQL AS, SAS, Mahout, etc.) est un atout.

Notez que la connaissance des paquets de statistiques n’est qu’un atout, mais que vous devez posséder d’excellentes compétences en programmation en Java.

  • Walmart, Data Scientist

    • Doctorat en informatique ou dans un domaine similaire ou MS avec au moins 2 à 5 ans d'expérience dans le domaine
    • Bonnes compétences en codage fonctionnel en C ++ ou en Java (Java est hautement préféré)
    • doit être capable de passer jusqu'à 10% de travail quotidien par jour à l'écriture de code de production en C ++ / Java / Hadoop / Hive
    • Connaissance approfondie de l'un des langages de script tels que Python ou Perl.
    • Expérience de travail avec des ensembles de données volumineux et des outils informatiques distribués, un atout (carte / réduction, Hadoop, Hive, Spark, etc.)

Ici, le doctorat est préféré, mais seule la majeure en informatique est nommée. L'informatique distribuée avec Hadoop ou Spark est probablement une compétence inhabituelle pour un statisticien, mais certains physiciens théoriciens et mathématiciens appliqués utilisent des outils similaires.

MISE À JOUR 2:

"Il est déjà temps de supprimer le titre" Data Scientist "", a déclaré Thomas Davenport, co-rédacteur de l'article paru dans le Harvard Business Review en 2012 intitulé "Data Scientist: le métier le plus sexy du 21e siècle" .

Qu'est-ce que cela signifie aujourd'hui de dire que vous êtes ou voulez être, ou que vous voulez embaucher, un «scientifique des données»? Pas grand chose, malheureusement.


3
+1 pour utiliser des données et créer un lien vers un bon rapport piloté par les données. Mais la capture d'écran nécessite-t-elle une interface de navigateur Web?
Piotr Migdal

@PiotrMigdal, je devrais apprendre à recadrer ou à ne plus être paresseux
Aksakal

4
Je l'ai recadré pour vous.
amibe

1
Je suis tenté de voter après la mise à jour d'aujourd'hui: ce fil est déjà très occupé et disposer d'un gigantesque mur de citations à faire défiler n'est pas très utile à mon avis ... Peut-être que les liens + un bref résumé pourraient suffire?
amibe

1
@ amoeba, j'ai réduit la liste. C'est un commentaire juste
Aksakal

39

Quelque part j'ai lu ceci (EDIT: Josh Will expliquant son tweet ):

Data Scientist est une personne qui est meilleur en statistique que tout programmeur et meilleur en programmation que tout statisticien.

Cette citation peut être brièvement expliquée par ce processus de science des données . Le premier aspect de ce schéma ressemble à "bon, où est la partie de la programmation?", Mais si vous avez des tonnes de données, vous devez pouvoir les traiter.


11
Donc, probablement chaque contributeur de R qui est un statisticien est un data scientist? ;)
Tim

15
Wow, je me promenais sur le site, je me posais des questions sur cette question (étant donné qu’il existe une datascience ), puis au fur et à mesure que j’avais une page de Wikipédia ? C’était une nouvelle pour moi… Et pour ce que ça vaut la peine d’avoir suivi une formation en économétrie, pas en statistiques, mais en tant que «quant» depuis plus de 20 ans. C’est effectivement la même chose que la science des données ...
Dirk Eddelbuettel

3
-1. Je ne vote pas parce que je n’aime pas la citation (c’est de toute façon une langue bavarde), mais parce que la réponse est trop brève et peu substantielle, en particulier par rapport à beaucoup d’autres réponses ici. Je suggérerais qu'il soit converti en un commentaire, à moins que vous ne le développiez peut-être d'une manière ou d'une autre.
amibe

3
Voici une explication de cette citation de son auteur Josh Wills . Les trois premiers paragraphes après la citation sont tout à fait pertinents pour cette discussion.
amibe

3
@amoeba: J’ai aimé jusqu’à présent l’article de Josh Wills: "Je suppose que nous enseignons aux gens des statistiques avancées d’une manière qui effraie généralement les informaticiens en se concentrant sur des modèles paramétriques nécessitant beaucoup de calcul au lieu de modèles non paramétriques qui sont principalement informatiques ". De plus, je ne suis pas d'accord avec lui sur le fait qu'il est plus facile d'enseigner des statistiques avancées aux responsables informatiques que de bien programmer les statisticiens (bien que je sois certainement d'accord sur le fait que la plupart des statisticiens sont des programmeurs terribles).
Cliff AB

15

J'ai écrit plusieurs réponses et chaque fois, elles ont été longues et j'ai finalement décidé de monter sur une tribune. Mais je pense que cette conversation n’a pas complètement exploré deux facteurs importants:

  1. La science dans la science des données. Une approche scientifique est une approche dans laquelle vous essayez de détruire vos propres modèles, théories, fonctionnalités, choix de technique, etc., et vous ne pouvez accepter que vos résultats puissent vous être utiles. C'est un état d'esprit et bon nombre des meilleurs scientifiques de données que j'ai rencontrés ont une formation scientifique (chimie, biologie, ingénierie).

  2. La science des données est un vaste domaine. Un bon résultat en science des données implique généralement une petite équipe de data scientists, chacun avec sa propre spécialité. Par exemple, un membre de l'équipe est plus rigoureux et plus statistique, un autre est un meilleur programmeur ayant une formation en ingénierie et un autre est un consultant expérimenté en matière de gestion. Tous les trois sont prompts à apprendre le sujet, et tous les trois sont curieux et veulent trouver la vérité - même douloureuse - et faire ce qui est dans le meilleur intérêt du client (interne ou externe), même si le client ne le fait pas. t comprendre.

L'engouement de ces dernières années - je pense qu'il est aujourd'hui en train de s'estomper - est de recruter des informaticiens qui maîtrisent les technologies de cluster (écosystème Hadoop, etc.) et qui disent que c'est le Data Scientist idéal. Je pense que c'est ce que le PO a rencontré et je lui conseillerais de renforcer ses forces en matière de rigueur, de justesse et de réflexion scientifique.


@ RustyStatistician: Je vous en prie. J'ajouterais que le cabinet de conseil pour lequel je travaille a un doctorat (ingénierie, biologie, astronomie, informatique), mais en général, les diplômes de MS - souvent des personnes ayant une expérience professionnelle qui y retournent pour obtenir un MS en analytique - constituent un bon choix . Cela dit, je suis chaque jour reconnaissant pour mon collègue doctorant en biologie qui est actuellement sur un projet où je suis le responsable technique. Avec le chef de projet qui a une formation en économie (et un MS en analytique), nous formons une excellente équipe! (Ma SEP est en intelligence artificielle.)
Wayne

+1, mais je m'interroge sur votre premier point, affirmant que la [bonne] science des données est une science. Si tel est le cas, il s’agit d’un terme curieux et peut-être trompeur (?) Car la "science des données" n’étudie pas les "données" en tant que telles; il utilise des données pour étudier autre chose, tout ce qui présente un intérêt pour une application donnée. En revanche, par exemple, la "science politique" est censée étudier la politique et la "neuroscience" étudie les neurones, comme le suggèrent leurs noms.
amibe

1
@ amoeba: En fait, je voulais dire qu'un scientifique de données doit utiliser la méthode scientifique ala Richard Feynman dans le cadre de sa compréhension et de son utilisation des données. (Comme vous le dites, dans la poursuite d'une application particulière.) C'est la partie statisticien du travail: "Cette variable semble très significative - s'agit-il d'une fuite de l'avenir?" Ou "Ce modèle semble raisonnable, mais exécutons le CV sur l'ensemble du processus de création du modèle, puis effectuons quelques rééchantillonnages par-dessus cela." Il est difficile de réfuter votre modèle / théorie et d'impliquer d'autres personnes dans ce processus. Ne pas accepter "Green M & Ms cause le cancer".
Wayne

@Wayne est le seul à avoir mentionné la "méthode scientifique" à ce jour. C'est tellement triste.
jgomo3

Une compréhension de la physique, en particulier des unités, est nécessaire pour quiconque tente de comprendre quelque chose. Cependant, dans notre nouveau monde, il est souvent suffisant de faire des observations heuristiques qui ont une valeur prédictive sous-optimale en tant que "bouchons d'obstruction", mais ne constituent pas de vraies solutions.
Carl

14

Je pense que Bitwise couvre la majeure partie de ma réponse, mais je vais ajouter mon 2c.

Non, je suis désolé, mais un statisticien n'est pas un informaticien, du moins d'après la façon dont la plupart des entreprises définissent ce rôle aujourd'hui. Notez que la définition a changé au fil du temps et qu'un des défis des praticiens est de s'assurer de leur pertinence.

Je partagerai quelques raisons communes expliquant pourquoi nous refusons les candidats aux postes de "Data Scientist":

  • Attentes concernant la portée du travail. En règle générale, le DS doit pouvoir travailler de manière autonome. Cela signifie qu'il n'y a personne d'autre pour lui créer l'ensemble de données afin de résoudre le problème qui lui a été attribué. Il doit donc être capable de trouver les sources de données, de les interroger, de modéliser une solution, puis, souvent, de créer également un prototype qui résout le problème. Souvent, il s’agit simplement de créer un tableau de bord, une alarme ou un rapport en temps réel qui est mis à jour en permanence.
  • Communication . Il semble que beaucoup de statisticiens ont du mal à "simplifier" et "vendre" leurs idées aux gens d'affaires. Pouvez-vous afficher un seul graphique et raconter une histoire à partir des données de manière à ce que tout le monde dans la salle puisse l'obtenir? Notez que c’est après avoir sécurisé que vous pouvez défendre chaque partie de l’analyse si elle est contestée.
  • Compétences de codage . Nous n'avons pas besoin de compétences en codage au niveau de la production, car nous avons des développeurs pour cela. Cependant, elle a besoin qu'elle soit capable d'écrire un prototype et de le déployer en tant que service Web dans une instance AWS EC2. Ainsi, les compétences de codage ne signifie pas la capacité d'écrire des scripts R. Je peux probablement ajouter une maîtrise de Linux quelque part ici. La barre est donc tout simplement supérieure à ce que la plupart des statisticiens ont tendance à croire.
  • SQL et bases de données . Non, il ne peut pas le faire au travail, car nous avons réellement besoin de lui pour adapter le SQL de base qu'il connaît déjà et apprendre à interroger les multiples systèmes de base de données que nous utilisons au sein de l'organisation, y compris Redshift, HIVE et Presto. qui utilise sa propre saveur de SQL. De plus, l'apprentissage de SQL sur le tas signifie que le candidat créera des problèmes chez tous les autres analystes jusqu'à ce qu'ils apprennent à rédiger des requêtes efficaces.
  • Apprentissage Machine . Généralement, ils ont eu recours à la régression logistique ou à quelques autres techniques pour résoudre un problème basé sur un jeu de données donné (style Kaggle). Cependant, même si l’interview part d’algorithmes et de méthodes, elle se concentre rapidement sur des sujets tels que la génération d’entités (souvenez-vous que vous devez créer le jeu de données, il n’ya personne d’autre pour le créer pour vous), la maintenabilité, l’évolutivité et les performances, ainsi que les fonctions associées. compromis. Dans certains cas, vous pouvez consulter un document pertinent de Google publié dans NIPS 2015.
  • Analyse de texte . Ce n’est pas indispensable, mais il est bon d’avoir une certaine expérience du traitement automatique du langage. Après tout, une grande partie des données est au format texte. Comme discuté, personne d'autre ne peut effectuer les transformations et nettoyer le texte pour vous, afin de le rendre consommable par un ML ou une autre approche statistique. Notez également qu’aujourd’hui même les diplômés en CS ont déjà réalisé un projet qui coche cette case.

Bien sûr, pour un rôle junior, vous ne pouvez pas avoir tout ce qui précède. Mais combien de ces compétences pouvez-vous vous permettre de rater et de récupérer au travail?

Enfin, pour clarifier les choses, la raison la plus courante de rejeter des non-statisticiens est précisément le manque de connaissances, même élémentaires, en statistiques. Et quelque part, il y a la différence entre un ingénieur de données et un informaticien. Néanmoins, les ingénieurs de données ont tendance à postuler pour ces rôles, car ils croient souvent que les "statistiques" ne sont que la moyenne, la variance et la distribution normale. Nous pouvons donc ajouter quelques mots à la mode statistiques pertinents mais effrayants dans les descriptions de poste afin de clarifier ce que nous entendons par "statistiques" et d’éviter la confusion.


4
Depuis 2006, j'enseigne des cours de statistiques appliquées et d'analyse de données dans le cadre de programmes dénommés "informatique de gestion" dans deux universités, et cela s'applique à 100% à ce que mes étudiants apprennent. 1. Ils ont besoin de collecter des données réelles, voire désordonnées, de leur entreprise, du Web, de sondages, etc. 2. Nettoyez, préparez et stockez les données dans une base de données SQL pour le cours. 3. Faites diverses analyses statistiques sur les données. 4. Préparez de brèves notes d’exécution de 1 à 2 pages et rédigez un rapport détaillé avec une programmation littérale (knitr ou similaire). À partir de ces données, la science informatique est l’informatique d’entreprise avec un cours supplémentaire en statistiques / ML, non?
Momo

4
Bien sûr, votre cours couvre bon nombre des compétences requises. Je suppose que nous pouvons trouver de nombreuses combinaisons, par exemple, un diplôme en informatique avec quelques cours de statistiques et une thèse / un stage sur un problème lié au blanchiment d'argent. En fin de compte, ce qui compte, c'est la profondeur et l'étendue des compétences pertinentes que le candidat apporte sur la table.
iliasfl

11

Permettez-moi d'ignorer le battage médiatique et les mots à la mode. Je pense que "Data Scientist" (ou ce que vous voulez appeler) est une chose réelle qui se distingue d'un statisticien. Il existe de nombreux types de postes qui sont en fait des experts en données, mais ne portent pas ce nom. Un exemple est celui des personnes travaillant dans le domaine de la génomique.

À mon avis, un scientifique des données est une personne qui possède les compétences et l'expertise pour concevoir et exécuter des recherches sur de grandes quantités de données complexes (par exemple, hautement dimensionnelles dans lesquelles les mécanismes sous-jacents sont inconnus et complexes).

Ça signifie:

  • Programmation: être capable de mettre en œuvre des analyses et des pipelines, nécessitant souvent un certain niveau de parallélisation et d'interfaçage avec des bases de données et des ressources informatiques hautes performances.
  • Informatique (algorithmes): concevoir / choisir des algorithmes efficaces permettant d'analyser l'analyse choisie et de contrôler le taux d'erreur. Parfois, cela peut aussi nécessiter des connaissances en analyse numérique, optimisation, etc.
  • Informatique / statistiques (l'accent étant généralement mis sur l'apprentissage automatique): conception et mise en œuvre d'un cadre permettant de poser des questions sur les données ou d'y trouver des "modèles". Cela inclurait non seulement la connaissance de différents tests / outils / algorithmes, mais également la manière de concevoir une conservation correcte, une validation croisée, etc.
  • Modélisation: nous aimerions souvent pouvoir produire un modèle qui donne une représentation plus simple des données, de sorte que nous puissions à la fois faire des prévisions utiles et mieux comprendre les mécanismes sous-jacents aux données. Les modèles probabilistes sont très populaires pour cela.
  • Expertise spécifique à un domaine: un aspect clé de la réussite du travail avec des données complexes consiste à intégrer des informations spécifiques à un domaine. Je dirais donc qu’il est essentiel que le spécialiste des données possède une expertise dans le domaine, soit capable d’apprendre rapidement de nouveaux domaines, soit qu’il soit capable d’interagir avec des experts du domaine pouvant fournir des informations utiles sur la manière d’aborder les données. .

6
Et qui est un statisticien, à votre avis? En quoi cette liste de compétences diffère-t-elle de celles qu'un "statisticien" devrait posséder?
amibe

4
@ amoeba Je me trompe peut-être, mais de nombreux statisticiens ne possèdent pas certaines de ces compétences (par exemple, une programmation étendue avec des jeux de données volumineux, une formation de niveau supérieur en informatique). En outre, certaines compétences statistiques ne sont pas pertinentes pour un spécialiste en informatique (certaines théories, certains sous-domaines).
Bitwise

4
@rocinante: Je ne suis pas du tout d' accord avec l' idée que "la programmation avec des" jeux de données volumineux "n'est pas vraiment un obstacle". Je ne pense pas que je connaisse quelqu'un qui porte le titre de "statisticien" et qui pourrait implémenter un logiciel qui prend des décisions en temps réel sur la base des paquets entrants sur un serveur. Certes, tous les scientifiques de données ne le pourraient pas non plus, mais la proportion est beaucoup plus élevée.
Cliff AB

3
@rocinante Une bonne compréhension des statistiques est nécessaire mais pas suffisante à mon sens. En ce qui concerne la profondeur / difficulté des statistiques par rapport aux autres compétences, je dirais qu’obtenir une bonne compréhension de l’informatique est aussi profond / difficile, voire plus. De plus, en ce qui concerne les questions sur cette SE, vous trouvez ce genre de questions sur n'importe quelle SE (y compris celle-ci) - cela ne veut rien dire, à part que certaines personnes veulent des solutions faciles sans compréhension.
Bitwise

6
La seule chose qui fatigue dans ces débats sur la "science des données par rapport aux statistiques" est la subtile implication selon laquelle les scientifiques des données sont comme une race supérieure de statisticiens. Le fait est qu’au fur et à mesure que vos connaissances grandissent, vos connaissances s’approfondissent et que les personnes qui savent mieux que quiconque se débrouillent pour accomplir toutes les tâches nécessaires pour être un "informaticien", j’imaginerais que leur connaissance de la plupart de ces choses est assez superficiel. En général, il est extrêmement difficile même d’être un expert dans l’un des domaines auxquels les scientifiques de données mythiques s’attendent.
Dsaxton

7

Toutes les bonnes réponses, cependant, dans mon expérience de recherche d’emploi, j’ai noté que le terme «informaticien» avait été confondu avec «analyste junior de données» dans l’esprit des recruteurs avec lesquels j’étais en contact. Ainsi, beaucoup de gentils gens sans expérience des statistiques, mis à part ce cours d’introduction d’un trimestre qu’ils ont suivi il ya quelques années, s’appellent maintenant eux-mêmes des spécialistes des données. Avec une formation en informatique et des années d'expérience en tant qu'analyste de données, j'ai fait un doctorat en statistique plus tard dans ma carrière en pensant que cela me permettrait de me démarquer de la masse, je me suis retrouvé dans une foule inattendue de "scientifiques de données". ". Je pense que je pourrais revenir à "statisticien"!


5
Je vois fondamentalement la même chose. Tout travail qui demande du travail avec des données ou une analyse s'appelle "Data Science". Je pense que la même chose est arrivée à "Quant" en finance, où quiconque travaillait avec des données s'appelait lui-même "Quant".
Akavall

6

Je suis un employé débutant, mais mon titre est "Data Scientist". Je pense que la réponse de Bitwise est une description pertinente de ce pour quoi j'ai été embauché, mais j'aimerais ajouter un autre point en fonction de mon expérience quotidienne au travail:

Data ScienceStatistics,
StatisticsData Science.

La science est un processus d'enquête. Lorsque les données sont le moyen par lequel cette enquête est faite, la science des données est en cours. Cela ne signifie pas que quiconque expérimente ou fait de la recherche de données est nécessairement un informaticien, de la même manière que tous ceux qui expérimentent ou font de la recherche avec du câblage ne sont pas nécessairement des ingénieurs électriciens. Mais cela signifie que l'on peut acquérir suffisamment de formation pour devenir un "enquêteur de données" professionnel, de la même manière que l'on peut acquérir suffisamment de formation pour devenir un électricien professionnel. Cette formation est plus ou moins composée des points de la réponse de Bitwise, dont les statistiques sont une composante mais pas la totalité.

La réponse de Piotr est également un bon résumé de toutes les choses que je dois faire si j'aimerais savoir comment faire une semaine donnée. Jusqu'à présent, mon travail a principalement consisté à réparer les dommages causés par d'anciens employés appartenant à la composante "Zone de danger" du diagramme de Venn.


2
+1 Je pense qu'il est très utile dans ce fil d'entendre des personnes qui sont réellement employées en tant que "scientifiques de données".
amibe

(+1) @amoeba Je suis d'accord à 100% avec votre sentiment.
RustyStatistician

8
Data ScienceStatisticsStatisticsData ScienceStatisticsData Science

@caveman je suis vraiment d'accord.
RustyStatistician

1
StatisticsData ScienceStatisticsData ScienceData Science

3

Je me suis aussi récemment intéressé à la science des données en tant que carrière, et quand je pense à ce que j’ai appris sur le métier de la science des données par rapport aux nombreux cours sur les statistiques que j’ai suivis (et que j’ai apprécié!), J’ai commencé à penser aux scientifiques des données comme: informaticiens qui ont porté leur attention sur les données. En particulier, j'ai noté les principales différences suivantes. Notez cependant que les différences apparaissent d'humeur. Ce qui suit ne fait que refléter mes impressions subjectives, et je ne prétends pas généralité. Juste mes impressions!

  1. En statistiques, vous vous souciez beaucoup des distributions, des probabilités et des procédures inférentielles (comment faire des tests d'hypothèses, qui sont les distributions sous-jacentes, etc.). D'après ce que j'ai compris, la science des données concerne le plus souvent la prévision, et les préoccupations relatives aux déclarations inférentielles sont dans une certaine mesure absorbées par les procédures informatiques, telles que la validation croisée.

  2. Dans les cours de statistiques, je viens souvent de créer mes propres données ou d’utiliser des données prêtes à l’emploi qui sont disponibles dans un format plutôt épuré. Cela signifie qu’il s’agit d’un joli format rectangulaire, d’une feuille de calcul Excel ou de quelque chose du genre qui s’intègre parfaitement dans la RAM. Le nettoyage des données est sûrement impliqué, mais je n'ai jamais eu à extraire de données du Web, encore moins de bases de données à configurer pour pouvoir stocker une quantité de données qui ne rentre plus dans la RAM. Mon impression est que cet aspect informatique est beaucoup plus dominant dans la science des données.

  3. Cela reflète peut-être mon ignorance de ce que font les statisticiens dans des emplois statistiques typiques, mais avant la science des données, je n'avais jamais pensé à intégrer des modèles à un produit plus vaste. Il y avait une analyse à faire, un problème statistique à résoudre, un paramètre à estimer, et c'est tout. En science des données, il semble que les modèles prédictifs soient souvent (bien que pas toujours) intégrés dans un ensemble plus vaste. Par exemple, vous cliquez quelque part et, en quelques millisecondes, un algorithme prédictif aura décidé de ce qui sera affiché. Ainsi, alors que dans les statistiques, je me suis toujours demandé "quel paramètre pouvons-nous estimer et comment le faisons-nous avec élégance", il semble que dans la science des données, l'accent soit davantage mis sur "que pouvons-nous prédire qui pourrait être utile dans un produit de données" .

Encore une fois, ce qui précède n’essaye pas de donner une définition générale. Je ne fais que souligner les différences majeures que j'ai moi-même perçues. Je ne suis pas encore dans la science des données, mais j'espère faire la transition l'année prochaine. En ce sens, prenez mes deux sous avec un grain de sel.


2

Je dis qu'un scientifique de données est un rôle dans lequel on crée des résultats lisibles pour l'homme pour les entreprises, en utilisant les méthodes permettant de rendre le résultat statistiquement solide (significatif).

Si une partie quelconque de cette définition n'est pas suivie, nous parlons d'un développeur, d'un vrai scientifique / statisticien ou d'un ingénieur de données.


2

J'aime toujours aller à l'essentiel.

statistics - science + some computer stuff + hype = data science

1
Cela ressemble à l’impression que j’ai formée de «machine learning», que j’encapsule comme «apprendre à utiliser un logiciel sans comprendre son fonctionnement» (injuste bien sûr, mais on voit beaucoup d’apprentissage automatique ceux qui sortent de l'école et qui ne comprennent rien à ce que représentent les paramètres de réglage de différents types de réseaux neuronaux.)
jbowman

1

La science des données est un mélange multidisciplinaire d'inférence de données, de développement d'algorithmes et de technologie permettant de résoudre des problèmes analytiquement complexes. Mais en raison de la pénurie de scientifiques des données, une carrière dans ce domaine peut réellement créer de nombreuses opportunités. Cependant, les organisations recherchent des professionnels certifiés de SAS, du DASCA ( Data Science Council of America ), de Hortonworks, etc. J'espère que ce sera une bonne information!


1

Les scientifiques de données possèdent de très bonnes compétences en développement Python, MySQL et Java.

Ils ont une très bonne compréhension des fonctions analytiques, très bien en mathématiques, en statistiques, en fouille de données, en analyse prédictive, ainsi qu’en une très bonne connaissance des langages de codage tels que Python et R.

Actuellement, beaucoup de scientifiques de données ont leur doctorat. ou leur maîtrise, selon la recherche, environ 8% seulement ont simplement un baccalauréat, alors c'est beaucoup plus approfondi.

Construire des modèles statistiques qui prennent des décisions basées sur des données. Chaque décision peut être difficile, par exemple bloquer le rendu d'une page, ou souple, par exemple affecter un score pour le caractère malveillant d'une page, utilisée par les systèmes descendants ou les humains.

Réaliser des expériences de causalité qui tentent d’attribuer la cause fondamentale d’un phénomène observé. Cela peut être fait en concevant des expériences A / B ou, s’il n’est pas possible, d’appliquer une approche épidémiologique au problème, par exemple @ le modèle causal de Rubin

Identifier de nouveaux produits ou fonctionnalités résultant du déverrouillage de la valeur des données; être un leader d'opinion sur la valeur des données. Un bon exemple à cet égard est la fonctionnalité de recommandations de produits proposée par Amazon pour la première fois à un public de masse.


1
Et bien non. Je suis au plus haut niveau possible dans la chaîne d’emploi des scientifiques de données, et je ne connais pas du tout Java, je ne maîtrise pas du tout Python, et mes compétences en MySQL sont au mieux de qualité générique. Dans mon groupe, nous avons quelques autres personnes qui connaissent peu Python, préférant R, et une seule personne connaît Java mais code principalement en R et C / C ++ (comme moi). Trois personnes connaissent Python mais n'en connaissent pas vraiment. langue de niveau inférieur. Je ne veux pas entrer dans les guerres de flammes Python v. R ou Java v. C / C ++, mais il n’est en aucun cas nécessaire que votre liste de compétences liées à la programmation soit nécessaire.
jbowman

0

Pour répondre à votre question "Qu'est-ce qu'un scientifique de données?" Il peut être intéressant de connaître la différence entre un scientifique de données et un mécanicien de données, comme indiqué dans http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/.


1
Pour que cette réponse soit complète, veuillez mettre en évidence les points principaux de l’article dans votre réponse, de manière à fournir des points clés au PO et aux autres lecteurs.
Greenparker
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.