Grande question. C'est une question de complexité, et l'approche que vous utiliserez dépendra de la complexité du problème. Tout problème que nous essayons de résoudre sera associé à un certain degré de complexité, défini familièrement comme «le nombre de choses qui interagissent ou qui doivent être prises en considération». Dans l'apprentissage supervisé et non supervisé, nous précisons précisément le nombre de choses à considérer.
Par exemple, dans une régression linéaire multiple, nous indiquons à l'algorithme d'apprentissage le nombre de fonctionnalités à prendre en compte lors de l'ajustement d'un modèle (le nombre de colonnes dans votre ensemble d'apprentissage). La même situation vaut pour l'apprentissage non supervisé; un ensemble d'apprentissage bien défini avec un nombre explicite de fonctionnalités est utilisé (dans ce cas sans étiquettes).
Ce à quoi vous êtes confronté est une situation mal adaptée à la classification ou à la régression, car vous ne pouvez pas spécifier précisément le nombre de «choses à considérer». Comme vous le dites, votre espace de problème est extrêmement grand. Une autre façon de penser à cela est en termes de formation nécessaire pour apprendre un modèle; à quel point est-ce difficile d'imaginer à quoi ressemble l'ensemble d'entraînement? Dans votre cas difficile. Que contiendraient exactement les colonnes de mon ensemble?
C'est pourquoi des applications comme les voitures autonomes, Atari et AlphaGo n'utilisent pas de classification ou de régression. Il est impossible de savoir à quoi ressemblerait l'ensemble d'entraînement. Vous pouvez essayer, mais votre modèle ne parviendra pas à faire de fortes prévisions fiables (dans ce cas, se déplace). Combien de choses devez-vous considérer pour construire un modèle de conditions routières?
C'est pourquoi un troisième type d'apprentissage automatique, l'apprentissage par renforcement, existe. Plutôt que d'utiliser un ensemble de formation prédéfini, il utilise des essais et des erreurs. En piquant continuellement son environnement, il peut apprendre une politique qui fonctionne à long terme.
Ainsi, pour les petits espaces à problèmes où nous avons une chance de définir l'ensemble de formation, nous utilisons l'apprentissage automatique supervisé et non supervisé. Pour les grands espaces problématiques où il est difficile de définir l'ensemble de formation, nous utilisons l'apprentissage par renforcement. Bien sûr, vous pouvez également faire des combinaisons intéressantes de toutes les approches ci-dessus, mais cela revient toujours à la complexité.