Problèmes et alternatives aux approches Deep Learning?


17

Au cours des 50 dernières années, l'augmentation / la baisse / l'augmentation de la popularité des réseaux neuronaux a agi comme un «baromètre» pour la recherche sur l'IA.

Il ressort clairement des questions sur ce site que les gens sont intéressés à appliquer le Deep Learning (DL) à une grande variété de problèmes difficiles.

J'ai donc deux questions:

  1. Praticiens - Quels sont, selon vous, les principaux obstacles à l'application du DL «prêt à l'emploi» à votre problème?
  2. Chercheurs - Quelles techniques utilisez-vous (ou avez-vous développées) qui pourraient aider à résoudre des problèmes pratiques? Font-ils partie de DL ou proposent-ils une approche alternative?

3
Si vous avez deux questions, vous devez poser deux questions.
bpachev

1
Ils sont clairement interdépendants.
NietzscheanAI

Réponses:


5

Pour résumer, le Deep Learning appliqué présente deux problèmes majeurs.

  • Le premier étant que sur le plan informatique, il est exhaustif. Les processeurs normaux nécessitent beaucoup de temps pour effectuer même le calcul / la formation de base avec Deep Learning. Les GPU sont donc recommandés, même s'ils ne suffisent pas dans de nombreuses situations. Les modèles d'apprentissage profond typiques ne prennent pas en charge le temps théorique pour être dans les polynômes. Cependant, si nous regardons les modèles relativement simples en ML pour les mêmes tâches, nous avons trop souvent des garanties mathématiques que le temps de formation requis pour de tels algorithmes plus simples se trouve dans les polynômes. Pour moi, c'est au moins probablement la plus grande différence.

    Il existe cependant des solutions pour contrer ce problème. Une approche principale consiste à optimiser les algorithmes DL pour un certain nombre d'itérations uniquement (au lieu de regarder les solutions globales dans la pratique, il suffit d'optimiser l'algorithme pour une bonne solution locale, tandis que le critère de «bonne» est défini par l'utilisateur).

  • Un autre problème qui peut être un peu controversé pour les jeunes passionnés d'apprentissage profond est que les algorithmes d'apprentissage profond manquent de compréhension et de raisonnement théoriques. Les réseaux de neurones profonds ont été utilisés avec succès dans de nombreuses situations, notamment la reconnaissance de l'écriture manuscrite, le traitement d'images, les voitures autonomes, le traitement du signal, la PNL et l'analyse biomédicale. Dans certains de ces cas, ils ont même dépassé les humains. Cependant, cela étant dit, ils ne sont en aucun cas, théoriquement aussi solides que la plupart des méthodes statistiques.

    Je n'entrerai pas dans les détails, je laisse plutôt cela à vous. Il y a des avantages et des inconvénients pour chaque algorithme / méthodologie et DL ne fait pas exception. C'est très utile comme cela a été prouvé dans de nombreuses situations et chaque jeune Data Scientist doit apprendre au moins les bases de la DL. Cependant, dans le cas de problèmes relativement simples, il est préférable d'utiliser des méthodes statistiques célèbres car elles ont beaucoup de résultats théoriques / garanties pour les soutenir. De plus, du point de vue de l'apprentissage, il est toujours préférable de commencer avec des approches simples et de les maîtriser en premier.


Par «en polynômes», vous voulez dire «en temps polynomial», non? Avez-vous une référence pour soutenir cela?
NietzscheanAI

Oui, c'est exactement ce que je veux dire. Bien sûr, cela peut être prouvé dans de nombreuses situations ... Je vais commencer avec l'exemple le plus simple possible, simplement former un réseau avec trois nœuds et deux couches est un problème NP-complet comme indiqué ici. ( Citeseerx.ist.psu. edu / viewdoc /… ). N'oubliez pas que cet article est très ancien, et maintenant nous avons plus d'idées sur la façon de s'améliorer dans la pratique, avec quelques heuristiques, mais toujours, théoriquement, il n'y a pas de résultats améliorés.
Sibghat Ullah

Autre bel article sur le même sujet, qui décrit également quelques astuces pour améliorer le temps de formation dans la pratique. ( pdfs.semanticscholar.org/9499/… )
Sibghat Ullah

Disons que nous voulons prédire le prix de quelque chose. La régression linéaire simple avec l'ajustement le moins carré aura un temps polynomial, tandis que la résolution du même problème avec les réseaux de neurones (même les plus simples d'entre eux) entraînera un problème complet de NP. C'est une très grande différence. Finalement, vous devez sélectionner soigneusement un algorithme pour une tâche spécifique. Par exemple, l'ajustement par moindres carrés a des hypothèses spécifiques, qui incluent, "La fonction idéale que l'algorithme apprend, peut être apprise comme une combinaison linéaire de caractéristiques". Si cette hypothèse n'est pas valable, les résultats sont obtenus.
Sibghat Ullah

Bien sûr, tout simplement parce qu'un problème (dans ce cas, trouver des poids optimaux) est NP-complet ne signifie pas en soi qu'il n'y a pas de méthodes pratiques efficaces pour trouver de bons poids ...
NietzscheanAI

5

J'ai très peu d'expérience avec ML / DL pour m'appeler l'un ou l'autre praticien, mais voici ma réponse à la 1ère question:

À sa base, DL résout bien la tâche de classification. Tous les problèmes pratiques ne peuvent pas être reformulés en termes de classification. Le domaine de classification doit être connu à l'avance. Bien que la classification puisse être appliquée à tout type de données, il est nécessaire de former le NN avec des échantillons du domaine spécifique où il sera appliqué. Si le domaine est changé à un moment donné, tout en conservant le même modèle (structure NN), il devra être recyclé avec de nouveaux échantillons. De plus, même les meilleurs classificateurs ont des «lacunes» - des exemples contradictoires peuvent être facilement construits à partir d'un échantillon de formation, de sorte que les changements sont imperceptibles pour l'homme, mais sont mal classés par le modèle formé.


2
La «classification» peut être considérée comme un cas particulier de «régression», qui est donc probablement une meilleure caractérisation de DL.
NietzscheanAI

3

Question 2. Je recherche si l'informatique hyper dimensionnelle est une alternative au Deep Learning. Hyper-D utilise des vecteurs de bits très longs (10 000 bits) pour coder les informations. Les vecteurs sont aléatoires et en tant que tels, ils sont approximativement orthogonaux. En groupant et en faisant la moyenne d'une collection de tels vecteurs, un "ensemble" peut être formé et ensuite interrogé pour voir si un vecteur inconnu appartient à l'ensemble. L'ensemble peut être considéré comme un concept ou une image généralisée, etc. La formation est très rapide tout comme la reconnaissance. Ce qu'il faut faire, c'est simuler les domaines dans lesquels le Deep Learning a réussi et comparer Hyper-D avec lui.


Intéressant. En quoi cela diffère-t-il de la «mémoire distribuée clairsemée» de Kanerva?
NietzscheanAI

Les deux sont développés par Pentti Kanerva. Recherchez l'informatique hyper dimensionnelle pour voir la différence. Trop long pour répondre ici.
Douglas G Danforth

1

D'un point de vue mathématique, l'un des problèmes majeurs des réseaux profonds à plusieurs couches est la disparition ou la dégradation des gradients . Chaque couche cachée supplémentaire apprend beaucoup plus lentement, annulant presque l'avantage de la couche supplémentaire.

Les approches modernes d'apprentissage en profondeur peuvent améliorer ce comportement, mais dans les réseaux neuronaux simples et à l'ancienne, c'est un problème bien connu. Vous pouvez trouver une analyse bien écrite ici pour une étude plus approfondie.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.