Bonne question. En fait, il y a beaucoup de confusion à ce sujet, principalement parce que les deux sont des emplois assez nouveaux. Mais si nous nous concentrons sur la sémantique, le sens réel des emplois devient clair.
Au préalable, il est préférable de comparer des pommes avec des pommes, en parlant d’un seul sujet, les données. L'apprentissage machine et son sous-genre (apprentissage en profondeur, etc.) ne sont qu'un aspect du monde des données, aux côtés des théories statistiques, de l'acquisition de données (DAQ), du traitement (qui peut ne pas être axé sur l'apprentissage automatique), interprétation des résultats, etc.
Donc, pour mon explication, j'élargirai le rôle d'ingénieur en apprentissage machine à celui d'ingénieur en données.
La science concerne les expériences, les essais et les échecs, la construction de théories, la compréhension phénoménologique. L'ingénierie consiste à travailler sur ce que la science sait déjà, à la perfectionner et à la porter dans le "monde réel".
Pensez à un proxy: quelle est la différence entre un scientifique nucléaire et un ingénieur nucléaire?
Le scientifique nucléaire est celui qui connaît la science derrière l'atome, l'interaction entre eux, celui qui a écrit la recette qui permet de tirer de l'énergie des atomes.
L'ingénieur nucléaire est le type chargé de prendre la recette du scientifique et de la transmettre au monde réel. Donc, sa connaissance de la physique atomique est assez limitée, mais il connaît également les matériaux, les bâtiments, l'économie et tout ce qui est utile pour construire une centrale nucléaire adéquate.
Pour en revenir au monde des données, voici un autre exemple: les gars qui ont développé les réseaux de neurones convolutionnels (Yann LeCun) est un scientifique des données, le gars qui déploie le modèle pour reconnaître les visages dans les images est un ingénieur en apprentissage automatique. Le responsable de l’ensemble du processus, de l’acquisition des données à l’enregistrement de l’image .JPG, est un ingénieur en données.
Ainsi, 90% des scientifiques de données actuels sont en fait des ingénieurs de données ou des ingénieurs en apprentissage automatique, et 90% des postes ouverts en tant que Data Scientist ont réellement besoin d'ingénieurs. Un contrôle simple: dans l'interview, vous serez interrogé sur le nombre de modèles ML que vous avez déployés en production, et non sur le nombre d'articles sur les nouvelles méthodes que vous avez publiées.
Au lieu de cela, quand vous voyez des annonces concernant "Machine Learning Engineer", cela signifie que les recruteurs sont bien conscients de la différence et qu'ils ont vraiment besoin de quelqu'un capable de mettre en modèle un modèle.
Data scientist
Cela ressemble à une désignation avec peu de clarté sur ce que sera le travail réel, tout enmachine learning engineer
étant plus spécifique. Dans le premier cas, votre entreprise vous donnera une cible et vous devrez déterminer quelle approche (apprentissage par la machine, traitement d'images, réseau de neurones, logique floue, etc.) vous utiliseriez. Dans le second cas, votre entreprise a déjà défini l’approche à utiliser.