Ayant récemment obtenu mon doctorat en statistique, je cherchais depuis quelques mois un travail dans le domaine des statistiques. Presque toutes les entreprises que j'ai considérées affichaient une offre d'emploi portant le titre " Data Scientist ". En fait, on avait l'impression que les titres d'emploi de chercheur en statistique ou de statisticien étaient révolus . Etre un informaticien avait-il vraiment remplacé ce qu'était un statisticien ou les titres étaient-ils synonymes, me demandais-je?
Eh bien, la plupart des qualifications pour les emplois semblaient être des choses qui pourraient être qualifiées sous le titre de statisticien. La plupart des emplois demandaient un doctorat en statistique ( ), la plupart des connaissances requises du modèle expérimental ( ), de la régression linéaire et de anova ( ), des modèles linéaires généralisés ( ) et d’autres méthodes à plusieurs variables telles que la PCA ( ) , ainsi que des connaissances dans un environnement informatique statistique tel que R ou SAS ( ). On dirait qu’un scientifique des données n’est en réalité qu’un nom de code pour un statisticien.✓ ✓ ✓ ✓ ✓ ✓
Cependant, chaque interview à laquelle je suis allé commençait par la question: "Alors, connaissez-vous les algorithmes d'apprentissage automatique?" Le plus souvent, je me suis retrouvé dans l'obligation de répondre à des questions sur le Big Data, l'informatique haute performance et des sujets relatifs aux réseaux de neurones, au CART, aux machines à vecteurs de support, aux arbres boosters, aux modèles non supervisés, etc. Bien sûr, je suis convaincu questions statistiques au cœur, mais à la fin de chaque entretien, je ne pouvais pas m'empêcher de partir avec le sentiment de savoir de moins en moins ce qu'est un scientifique des données.
Je suis un statisticien, mais suis-je un informaticien? Je travaille sur des problèmes scientifiques alors je dois être scientifique! Et aussi je travaille avec des données, donc je dois être un informaticien! Et selon Wikipedia, la plupart des universitaires seraient d'accord avec moi ( https://en.wikipedia.org/wiki/Data_science , etc.)
Bien que l'utilisation du terme "science des données" ait explosé dans les environnements professionnels, de nombreux universitaires et journalistes ne font aucune distinction entre la science des données et les statistiques.
Mais si je participe à toutes ces entrevues pour occuper un poste de spécialiste des données, pourquoi a-t-on l'impression de ne jamais me poser de questions statistiques?
Après ma dernière entrevue, je voulais vraiment faire appel à un bon scientifique et j'ai recherché des données pour résoudre ce problème (hé, je suis un scientifique, après tout). Cependant, après de nombreuses recherches Google plus tard, je me suis retrouvé là où j'ai commencé à me sentir comme si je me débattais encore une fois avec la définition de ce qu'est un scientifique des données. Je ne savais pas ce qu'était exactement un scientifique, car il y avait tellement de définitions, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) mais il semblait que tout le monde me disait que je voulais en être un:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- etc .... la liste est longue.
En fin de compte, ce que j’ai compris, c’est «qu’est un informaticien», c’est une question très difficile à répondre. Heck, il y a eu deux mois entiers à Amstat où ils ont consacré du temps à tenter de répondre à cette question:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Pour le moment, je dois être un statisticien sexy pour être un spécialiste des données, mais j'espère que la communauté validée par la croix pourra peut-être nous éclairer un peu et m'aider à comprendre ce que cela signifie. Tous les statisticiens ne sont-ils pas des scientifiques de données?
(Edit / Update)
Je pensais que cela pourrait pimenter la conversation. Je viens de recevoir un courrier électronique de l'American Statistical Association au sujet d'un poste proposé par Microsoft à la recherche d'un scientifique. Voici le lien: Data Scientist Position . Je pense que cela est intéressant car le rôle du poste touche beaucoup de traits spécifiques dont nous avons parlé, mais je pense que bon nombre d’entre eux exigent des connaissances très rigoureuses en statistiques et contredisent bon nombre des réponses données ci-dessous. Au cas où le lien disparaîtrait, voici les qualités que Microsoft recherche chez un informaticien:
Exigences de base et compétences:
Expérience du domaine d'activité avec Analytics
- Doit avoir une expérience dans plusieurs domaines commerciaux pertinents dans l'utilisation des compétences de pensée critique pour conceptualiser des problèmes métier complexes et leurs solutions à l'aide d'analyses avancées dans des ensembles de données métier à grande échelle et dans le monde réel
- Le candidat doit être capable de gérer de manière indépendante des projets analytiques et d’aider nos clients internes à comprendre les résultats et à les traduire en actions bénéfiques pour leur entreprise.
Modélisation prédictive
- Expérience dans tous les secteurs de la modélisation prédictive
- Définition du problème métier et modélisation conceptuelle avec le client pour établir des relations importantes et définir la portée du système
Statistiques / économétrie
- Analyse de données exploratoire pour les données continues et catégorielles
- Spécification et estimation d'équations de modèle structurelles pour le comportement des entreprises et des consommateurs, les coûts de production, la demande de facteurs, le choix discret et d'autres relations technologiques, si nécessaire
- Techniques statistiques avancées pour analyser des données continues et catégoriques
- Analyse de séries chronologiques et mise en œuvre de modèles de prévision
- Connaissance et expérience du travail avec des problèmes à variables multiples
- Capacité à évaluer l'exactitude des modèles et à effectuer des tests de diagnostic
- Capacité à interpréter des statistiques ou des modèles économiques
- Connaissance et expérience de la construction de simulations à événements discrets et de modèles de simulation dynamiques
Gestion de données
- Familiarité avec l'utilisation de T-SQL et de l'analyse pour la transformation de données et l'application de techniques d'exploration de données exploratoires pour de très grands ensembles de données du monde réel
- Attention portée à l'intégrité des données, y compris la redondance des données, la précision des données, les valeurs anormales ou extrêmes, les interactions de données et les valeurs manquantes.
Compétences en communication et collaboration
- Travailler de manière indépendante et capable de travailler avec une équipe de projet virtuelle qui recherchera des solutions innovantes pour résoudre des problèmes complexes.
- Collaborer avec des partenaires, appliquer des compétences de pensée critique et mener des projets analytiques de bout en bout
- Excellentes aptitudes à la communication verbale et écrite
- Visualisation des résultats analytiques sous une forme utilisable par un ensemble divers de parties prenantes
Progiciels
- Progiciels statistiques / économétriques avancés: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- Exploration, visualisation et gestion des données: outils T-SQL, Excel, PowerBI et équivalents
Qualifications:
- Minimum de 5 ans d'expérience pertinente requise
- Un diplôme d'études supérieures dans un domaine quantitatif est souhaitable.