Permettez-moi d’abord de préciser que je commence mon aventure dans la science des données en tant que programmeur et développeur de bases de données. Je ne suis pas un expert en science des données de 10 ans, ni un dieu de la statistique. Cependant, je travaille en tant que Data Scientist et de grands ensembles de données pour une entreprise qui travaille avec de grands clients dans le monde entier.
D'après mon expérience, les scientifiques utilisent tous les outils dont ils ont besoin pour faire le travail. Excel, R, SAS, Python et plus sont tous des outils dans une boîte à outils pour un bon scientifique. Les meilleurs peuvent utiliser une grande variété d’outils pour analyser et traiter des données.
Par conséquent, si vous comparez R à Python, vous vous trompez probablement dans le monde de la science des données. Un bon scientifique utilise les deux quand il est judicieux d’utiliser l’une sur l’autre. Ceci s'applique également à Excel.
Je pense qu'il est plutôt difficile de trouver quelqu'un qui ait l'expérience de tant d'outils et de langages différents, tout en étant excellent dans tous les domaines. Je pense également qu’il sera difficile de trouver des scientifiques spécialisés dans les données qui puissent non seulement programmer des algorithmes complexes, mais aussi savoir les utiliser du point de vue statistique.
La plupart des informaticiens avec lesquels j'ai travaillé se déclinent en deux versions. Ceux qui peuvent programmer et ceux qui ne peuvent pas. Je travaille rarement avec des scientifiques qui peuvent extraire des données en Python, les manipuler avec des Pandas, adapter un modèle aux données de R puis le présenter à la direction à la fin de la semaine.
Je veux dire, je sais qu'ils existent. J'ai lu de nombreux blogs sur la science des données développés par des personnes développant des scrappers Web, l'insérant dans Hadoop, le retirant en Python, programmant des choses complexes et exécutant l'application avec R pour démarrer. Ils existent. Ils sont dehors. Je n'ai tout simplement pas rencontré trop de personnes capables de faire tout cela. Peut-être que c'est juste mon domaine si?
Alors, cela signifie-t-il que nous nous spécialisons dans un seul problème? Non. Beaucoup de mes amis se spécialisent dans une seule langue principale et la tuent. Je connais beaucoup de gars de données qui ne connaissent que R et le tuent. Je connais également de nombreuses personnes qui utilisent simplement Excel pour analyser des données, car c’est la seule chose que la plupart des non-spécialistes en informatique peuvent ouvrir et utiliser (en particulier dans les entreprises B2B). La question à laquelle vous devez vraiment répondre est de savoir si cette chose est la seule chose dont vous avez besoin pour ce poste? Et surtout, peuvent-ils apprendre de nouvelles choses?
PS
Data Science ne se limite pas à "BIG DATA" ou à NoSQL.