Pourquoi ne pas simplement vider les réseaux de neurones et l'apprentissage en profondeur? [fermé]


25

Problème fondamental avec l'apprentissage en profondeur et les réseaux de neurones en général.

  1. Les solutions adaptées aux données d'entraînement sont infinies. Nous n'avons pas d'équation mathématique précise qui ne soit satisfaite que par une seule et que nous pouvons dire généralisant le mieux. Pour parler simplement, nous ne savons pas laquelle se généralise le mieux.

  2. L'optimisation des poids n'est pas un problème convexe, nous ne savons donc jamais que nous nous retrouvons avec un minimum global ou local.

Alors pourquoi ne pas simplement vider les réseaux de neurones et chercher à la place un meilleur modèle ML? Quelque chose que nous comprenons et quelque chose qui est cohérent avec un ensemble d'équations mathématiques? Linéaire et SVM n'ont pas ces inconvénients mathématiques et sont entièrement cohérents avec un ensemble d'équations mathématiques. Pourquoi ne pas simplement penser sur les mêmes lignes (pas nécessairement linéaire cependant) et proposer un nouveau modèle ML mieux que les réseaux linéaires et SVM et neuronaux et l'apprentissage en profondeur?


37
Si vous le trouvez, les gens le feront.
Matthew Drury

23
"Pourquoi ne pas venir avec ...?" Vous ne croiriez pas combien de chercheurs sont occupés à faire exactement cela! Ils n'ont tout simplement pas réussi jusqu'à présent.
Kilian Foth

31
"Tous les modèles sont faux mais certains sont utiles" et les nns sont certainement utiles.
josh

15
@ RajeshDachiraju - c'est un vieil idiome, mais j'étais peut-être un peu vague. Vous avez demandé pourquoi ne pas jeter les NN car ils ne sont pas parfaits. Ma réplique est qu'ils ne sont pas parfaits, mais ils sont UTILES. Les gens les utilisent pour conduire automatiquement des voitures, traduire des langues étrangères, étiqueter des vidéos, pour la conservation des baleines et même pour appliquer ces filtres Snapchat avec des oreilles de chien à vos photos! par exemple, ils fonctionnent, nous continuons donc à les utiliser :)
josh

13
Vous savez aussi ce qui ne va pas: la mécanique newtonienne. Mécanique quantique. Relativité. Toute la physique est fausse (il n'y a pas un seul modèle décrivant tout, tous ont leurs défauts). La chimie est complètement fausse avec tant de choses (décrire un atome est toujours juste une bonne approximation mais jamais exacte). La seule chose exactement vraie au monde est les mathématiques. Mathématiques pures. Tout le reste est proche de la bonne réponse. Faut-il jeter le reste? (à partir de votre ordinateur construit avec de mauvaises lois?). Non. Encore une fois: tous les modèles sont faux, mais certains sont utiles.
Mayou36

Réponses:


48
  1. Ne pas être en mesure de savoir quelle solution se généralise le mieux est un problème, mais cela ne devrait pas nous dissuader d'utiliser autrement une bonne solution. Les humains eux-mêmes ne savent souvent pas ce qui se généralise le mieux (pensez, par exemple, aux théories unificatrices concurrentes de la physique), mais cela ne nous pose pas trop de problèmes.

  2. Il a été démontré qu'il est extrêmement rare que la formation échoue en raison des minimums locaux. La plupart des minimums locaux dans un réseau neuronal profond ont une valeur proche du minimum global, donc ce n'est pas un problème. la source

Mais la réponse plus large est que vous pouvez parler toute la journée de la non-convexité et de la sélection des modèles, et les gens utiliseront toujours les réseaux de neurones simplement parce qu'ils fonctionnent mieux qu'autre chose (au moins sur des choses comme la classification d'images).

Bien sûr, il y a aussi des gens qui soutiennent que nous ne devrions pas trop nous concentrer sur les CNN comme la communauté était concentrée sur les SVM il y a quelques décennies, et continuer à chercher la prochaine grande chose. En particulier, je pense que je me souviens que Hinton a regretté l'efficacité des CNN comme quelque chose qui pourrait entraver la recherche. Article similaire


1
J'aime particulièrement le dernier paragraphe.
Rajesh Dachiraju

10
Avez-vous une citation pour le point # 2?
DrMcCleod

@DrMcCleod: pour moi, le point 2 ressemble plus au jingoisme. Juste dans un sens plus léger.
Rajesh Dachiraju

6
@DrMcCleod il y a beaucoup de travail qui suggère que les minima locaux sont très proches des minima globaux et que les points de selle sont à la place le problème. Voir cet article pour une discussion sur les points de selle et cet article pour savoir pourquoi les minima locaux ne sont pas nécessairement mauvais.
2017

1
Je préfère un seul théâtre, je pense. Mais supposons que je sache que j'apprécierai à peu près n'importe quel film presque autant que celui que je veux vraiment regarder. Ensuite, je ne serai pas déçu quand il y a 10 salles et je dois en choisir une au hasard, car je sais que n'importe quel théâtre et film me laissera satisfait.
shimao

14

Comme le soulignent les commentaires sur votre question, beaucoup de gens travaillent à trouver quelque chose de mieux. J'aimerais cependant répondre à cette question en développant le commentaire laissé par @josh


Tous les modèles sont faux mais certains sont utiles (Wiki)

L'énoncé ci-dessus est une vérité générale utilisée pour décrire la nature des modèles statistiques. En utilisant les données dont nous disposons, nous pouvons créer des modèles qui nous permettent de faire des choses utiles telles que l'approximation d'une valeur prédite.

Prenons par exemple la régression linéaire

En utilisant un certain nombre d'observations, nous pouvons ajuster un modèle pour nous donner une valeur approximative pour une variable dépendante étant donné toute valeur pour la ou les variables indépendantes.

Burnham, KP; Anderson, DR (2002), Sélection de modèles et multimodèle> Inférence: une approche théorique pratique de l'information (2e éd.):

"Un modèle est une simplification ou une approximation de la réalité et ne reflétera donc pas toute la réalité. ... Box a noté que" tous les modèles sont faux, mais certains sont utiles ". être classé de très utile, utile, quelque peu utile à, enfin, essentiellement inutile.

Les écarts par rapport à notre modèle (comme on peut le voir sur l'image ci-dessus) semblent aléatoires, certaines observations sont en dessous de la ligne et d'autres au-dessus, mais notre ligne de régression montre une corrélation générale. Alors que les écarts dans notre modèle semblent aléatoires, dans des scénarios réalistes, il y aura d'autres facteurs en jeu qui provoquent cet écart. Par exemple, imaginez regarder des voitures pendant qu'elles traversent une intersection où elles doivent tourner à gauche ou à droite pour continuer, les voitures ne tournent pas de façon particulière. Alors que nous pourrions dire que la direction dans laquelle les voitures tournent est complètement aléatoire, chaque conducteur atteint-il la jonction et prend-il à ce moment-là une décision aléatoire de quel sens tourner? En réalité, ils se dirigent probablement vers un endroit spécifique pour une raison spécifique, et sans essayer d'arrêter chaque voiture pour leur demander leur raisonnement, nous ne pouvons que décrire leurs actions comme aléatoires.

Lorsque nous pouvons adapter un modèle avec un écart minimal, dans quelle mesure pouvons-nous être certains qu'une variable inconnue, inaperçue ou incommensurable ne jettera pas à un moment donné notre modèle? Le battement d'ailes d'un papillon au Brésil déclenche-t-il une tornade au Texas?

Le problème avec l'utilisation des modèles linéaires et SVN que vous mentionnez seuls est que nous sommes quelque peu tenus d'observer manuellement nos variables et comment elles s'influencent mutuellement. Nous devons ensuite décider quelles variables sont importantes et écrire un algorithme spécifique à la tâche. Cela peut être simple si nous n'avons que quelques variables, mais qu'en est-il si nous en avions des milliers? Et si nous voulions créer un modèle de reconnaissance d'image généralisé, cela pourrait-il être réalisé de manière réaliste avec cette approche?

L'apprentissage profond et les réseaux de neurones artificiels (RNA) peuvent nous aider à créer des modèles utiles pour d'énormes ensembles de données contenant d'énormes quantités de variables (par exemple des bibliothèques d'images). Comme vous le mentionnez, il existe un nombre incompréhensible de solutions qui pourraient correspondre aux données à l'aide des RNA, mais ce nombre est-il vraiment différent de la quantité de solutions dont nous aurions besoin pour nous développer par essais et erreurs?

L'application des RNA fait une grande partie du travail pour nous, nous pouvons spécifier nos entrées et nos sorties souhaitées (et les ajuster plus tard pour apporter des améliorations) et laisser à l'ANN le soin de trouver la solution. C'est pourquoi les RNA sont souvent décrits comme des "boîtes noires" . À partir d'une entrée donnée, ils produisent une approximation, mais (en termes généraux) ces approximations n'incluent pas de détails sur la façon dont elles ont été approximées.

Et donc, cela revient vraiment au problème que vous essayez de résoudre, car le problème dictera quelle approche de modèle est la plus utile. Les modèles ne sont pas absolument précis et il y a donc toujours un élément d'être «faux», mais plus vos résultats sont précis, plus ils sont utiles. Avoir plus de détails dans les résultats sur la façon dont l'approximation a été faite peut également être utile, selon le problème, il peut même être plus utile qu'une précision accrue.

Si, par exemple, vous calculez le pointage de crédit d'une personne, l'utilisation de la régression et des SVM fournit des calculs qui peuvent être mieux explorés. Il est très utile de pouvoir ajuster le modèle directement et expliquer aux clients l'effet que des variables indépendantes distinctes ont sur leur score global. Un ANN peut aider à traiter de plus grandes quantités de variables pour obtenir un score plus précis, mais cette précision serait-elle plus utile?


6
Vous faites de bons arguments, mais le fait que «dans de nombreux cas, nos observations et prévisions ne se situeront pas exactement sur la ligne ajustée» n'est pas une bonne démonstration du slogan «tous les modèles sont faux». En régression linéaire, nous modélisons E (Y | X) et donc les points ne se situant pas exactement sur la droite ne démontrent pas de déficience dans notre modèle. L'aléatoire est prédéfini et attendu; le modèle n'est pas "faux" lorsque l'on observe des écarts par rapport à la ligne ajustée.
klumbard

@klumbard Merci pour le commentaire. J'ai mis à jour ma réponse avec plus de détails, ce qui explique mon raisonnement derrière l'utilisation de ceci comme exemple. J'ai adopté une approche plus philosophique dans ma réponse et j'ai parlé en termes plus généraux plutôt que spécifiques, c'est mon premier post dans cette communauté, je m'excuse si ce n'est pas le lieu de le faire. Vous semblez bien informé sur les détails, pourriez-vous développer un peu plus votre commentaire? La question que je me pose est la suivante: là où les écarts ne démontrent pas de carence, un modèle de régression avec un R au carré de 0,01 n'est-il pas "faux"?
Carrosive

2
Mon seul problème avec votre message est la façon dont vous dites "... comme dans de nombreux cas, nos observations et prédictions ne se situent pas exactement sur la ligne ajustée. C'est une façon dont notre modèle est souvent" faux "..." . Je dis simplement que la spécification du modèle inclut un terme d'erreur et donc le fait (seul) que les données observées ne tombent pas sur la ligne ajustée n'indique pas une "erreur" du modèle. Cela peut sembler être une distinction sémantique subtile mais je pense que c'est important
klumbard

1
Le point saillant, que vous abordez, est que tous les modèles sont erronés à cause du biais variable omis ainsi que d'une mauvaise spécification de la forme fonctionnelle. Chaque fois que vous notez un modèle de régression et effectuez une inférence sur les estimations, vous supposez que vous avez correctement spécifié le modèle, ce qui n'est jamais le cas.
klumbard

1
@klumbard Oh, je peux voir d'où vous venez maintenant. Ainsi, bien que le modèle produise des estimations qui ne sont probablement pas complètement exactes, nous pouvons mesurer le terme d'erreur pour indiquer dans quelle mesure les valeurs réelles peuvent s'écarter des estimations, et il serait donc incorrect de dire que le modèle est intrinsèquement erroné. Je vais retirer cette partie de ma réponse, je pense que mon point est mieux expliqué dans la partie que j'ai ajoutée après. Merci d'avoir expliqué :)
Carrosive

8

Le minimum global peut aussi bien être inutile, donc nous ne nous soucions pas vraiment de le trouver ou non. La raison en est que, pour les réseaux profonds, non seulement le temps nécessaire pour le trouver devient exponentiellement plus long à mesure que la taille du réseau augmente, mais aussi le minimum global correspond souvent à un surajustement de l'ensemble d'entraînement. Ainsi, la capacité de généralisation du DNN (qui nous tient vraiment à cœur) en souffrirait. De plus, nous préférons souvent des minima plus plats correspondant à une valeur plus élevée de la fonction de perte, que des minima plus nets correspondant à une valeur inférieure de la fonction de perte, car le second traitera très mal l'incertitude dans les entrées. Cela devient de plus en plus clair avec le développement du Bayesian Deep Learning. L'optimisation robuste bat très souvent l'optimisation déterministe, lorsqu'elle est appliquée à des problèmes du monde réel où l'incertitude est importante.

Enfin, c'est un fait que les DNN viennent de botter le cul de méthodes telles que XGBoost dans la classification d'images et la PNL. Une entreprise qui doit réaliser un profit grâce à la classification des images les sélectionnera correctement comme modèles à déployer en production ( et investira une somme importante dans l'ingénierie des fonctionnalités, le pipeline de données, etc. mais je m'égare). Cela ne signifie pas qu'ils dominent tout l'environnement ML: par exemple, ils font pire que XGBoost sur les données structurées (voir les derniers gagnants des compétitions Kaggle) et ils semblent ne pas encore faire aussi bien que les filtres à particules sur la modélisation des séries chronologiques. Cependant, certaines innovations très récentes sur les RNN peuvent modifier cette situation.


2
Vraiment? Un downvote? C'est un peu déplacé. C'est une réponse raisonnable (+1).
usεr11852 dit Réintégrer Monic

5
@RajeshDachiraju puisque vous essayez apparemment de déduire ce que je serais ou ne serais pas au courant, vous seriez probablement intéressé d'apprendre que des personnes ayant une compréhension beaucoup plus grande des réseaux de neurones et une optimisation non convexe que vous semblez avoir, parlent régulièrement de un minimum global unique pour les réseaux de neurones. Parmi l'énorme pile de documents utilisant cette terminologie, vous pouvez essayer de lire celui-ci et voir si vous comprenez où vous vous trompez.
DeltaIV

2
@RajeshDachiraju: Merci d'avoir expliqué votre raisonnement, beaucoup de gens ne prendraient pas la peine. Cela étant dit, je pense que votre raisonnement est erroné et découle d'une mauvaise interprétation d'une phrase très particulière. Je suis d'accord avec DeltaIV que cette terminologie standard.
usεr11852 dit Réintégrer Monic

1
@DeltaIV: Mon point est qu'il pourrait y avoir plusieurs vecteurs de poids qui ont 0 perte sur les données d'entraînement (bien sûr en gardant l'architecture constante). Le but de l'entraînement est d'obtenir un vecteur de poids inst? Je suis donc en désaccord avec vous. L'un de ces vecteurs de poids est extrêmement utile. Mais je demande permet d'accepter d'être en désaccord et de terminer cette conversation ici. Cordialement Rajesh
Rajesh Dachiraju

1

7

Je pense que la meilleure façon de réfléchir à cette question passe par le marché concurrentiel. Si vous videz l'apprentissage en profondeur et que vos concurrents l'utilisent, ET que cela fonctionne mieux que ce que vous utilisiez, alors vous serez battu sur le marché.

Je pense que c'est ce qui se passe, en partie, aujourd'hui, c'est-à-dire que l'apprentissage en profondeur semble fonctionner mieux que tout pour tous les problèmes du marché. Par exemple, les traducteurs de langues en ligne utilisant le deep learning sont meilleurs que les approches purement linguistiques utilisées auparavant. Il y a quelques années à peine, ce n'était pas le cas, mais les progrès de l'apprentissage en profondeur ont amené ceux qui avaient l'habitude à occuper des postes de direction sur le marché.

Je continue de répéter «le marché» parce que c'est ce qui est à l'origine de la poussée actuelle du deep learning. Le moment où les affaires trouvent quelque chose d'utile, que quelque chose se répandra. Ce n'est pas nous , le comité, qui avons décidé que l'apprentissage en profondeur devrait être populaire. Ce sont les affaires et la concurrence.

La deuxième partie, c'est qu'en plus du succès réel de ML, il y a aussi la peur de rater le bateau. Beaucoup d'entreprises sont paranoïaques si elles ratent l'IA, elles échoueront en tant qu'entreprises. Cette peur est nourrie par toutes ces maisons de conseil, Gartners, etc., chuchotant aux PDG qu'ils doivent faire de l'IA ou mourir demain.

Personne n'oblige les entreprises à utiliser le deep learning. L'informatique et la R&D sont emballées par un nouveau jouet. Les applaudissements du milieu universitaire, donc cette fête va durer jusqu'à ce que la musique s'arrête, c'est-à-dire jusqu'à ce que l'apprentissage profond cesse de livrer. En attendant, vous pouvez le vider et trouver une meilleure solution.


Qu'en est-il du financement de la recherche universitaire? Pouvez-vous s'il vous plaît nous éclairer?
Rajesh Dachiraju

2
Une grande partie du financement provient de l'industrie. Les professeurs qui obtiennent le plus d'argent de l'industrie sont ceux qui ont le plus d'influence dans le monde universitaire. Les universités emportent une énorme partie de l'argent qu'elles obtiennent des entreprises, alors elles aiment ces professeurs. Si vous lisez cet article du NYT, vous pouvez vous faire une idée de la frénésie à la fois dans le monde universitaire et dans l'industrie
Aksakal

très bonne référence au marché (+1): j'ai dit la même chose ("Une entreprise qui doit faire un profit sur la classification des images les sélectionnera correctement comme modèles à déployer en production"). Cependant, je serais légèrement en désaccord sur la paranoïa. C'est un fait (pas de la paranoïa) que Waymo est sur le point de battre Tesla, Audi et un autre constructeur automobile dont je ne me souviens plus du nom, et cela est en grande partie dû aux énormes investissements de Google dans le Deep Learning. Audi aurait certainement pu utiliser SIFT et SURF (des technologies de vision par ordinateur bien testées qui n'ont aucun lien avec le Deep Learning), si elles ...
DeltaIV

...voulait. La supériorité de DL par rapport aux méthodes SIFT, SURF et autres méthodes basées sur la géométrie, en ce qui concerne la classification des images, est un fait attesté par cinq années de recherche académique et industrielle solide. Ce n'est certainement pas une panacée (voir les échecs d'IBM Watson), et il y a du battage médiatique, mais il y a aussi des faits durs et froids.
DeltaIV

2
@DeltaIV ML fonctionne certainement dans certaines applications, mais je pense que son adoption à grande échelle aujourd'hui est due à la paranoïa et au battage médiatique dans une large mesure. Que cela fonctionne ou non, les CTO sont là pour ça. J'ai des amis qui ne savaient pas de quoi je parlais il y a tout juste un an, maintenant ils disent que l'IA est l'avenir, ils vont commencer les implémentations, etc.
Aksakal

4

Il y a d'excellentes réponses, qui tiennent surtout compte de l'utilité des DL et des ANN. Mais je voudrais objecter l'OP d'une manière plus fondamentale, car la question tient déjà pour acquise l'incohérence mathématique des réseaux de neurones.

Tout d'abord, il existe une théorie mathématique derrière (la plupart des modèles de) réseaux de neurones. Vous pourriez également faire valoir que la régression linéaire ne se généralise pas, sauf si le modèle sous-jacent est ... eh bien, linéaire. Dans les algorithmes neuronaux, un modèle est supposé (même s'il n'est pas explicite) et l'erreur d'ajustement est calculée. Le fait que les algorithmes soient modifiés avec diverses heuristiques n'annule pas le support mathématique d'origine. BTW, l'optimisation locale est également une théorie mathématiquement cohérente, et encore moins utile.

Dans cette optique, si les réseaux de neurones ne constituent qu'une classe de méthodes dans l'ensemble de la boîte à outils des scientifiques, quelle est la ligne qui sépare les réseaux de neurones du reste des techniques? En fait, les SVM étaient autrefois considérés comme une classe de NN et ils apparaissent toujours dans les mêmes livres. D'un autre côté, les NN pourraient être considérés comme une technique de régression (non linéaire), peut-être avec une certaine simplification. Je suis d'accord avec l'OP que nous devons rechercher des algorithmes meilleurs, bien fondés et efficaces, que vous les étiquetiez comme NN ou non.


Le problème de l'incohérence est que l'on ne peut pas poser de questions simples comme: Quand faut-il arrêter la formation et abandonner? De nombreuses rumeurs comme `` Dropot '', `` Weight Decay '', `` ReLu '' et diverses activations, la normalisation par lots, la mise en commun maximale, le softmax, l'arrêt précoce, divers programmes de taux d'apprentissage et toutes les permutations et combinaisons de ces éléments font que le concepteur est toujours dans le doute. s'il faut abandonner ou non à un moment donné.
Rajesh Dachiraju

1
@RajeshDachiraju La même chose pourrait être dite sur les coefficients de pénalité dans les algorithmes d'optimisation des points extérieurs, ou sur la taille des pas dans les méthodes de Runge-Kutta. Le mot "incohérent" a un sens précis en science qui ne s'applique pas ici.
Miguel

0

Je suppose que pour certains problèmes, nous nous soucions moins de la rigueur mathématique et de la simplicité, mais plus de son utilité, le statut actuel est que le réseau de neurones est meilleur pour effectuer certaines tâches comme la reconnaissance de formes dans le traitement d'image.


0

Il y a beaucoup dans cette question. Reprenons ce que vous avez écrit un par un.

Les solutions adaptées aux données d'entraînement sont infinies. Nous n'avons pas d'équation mathématique précise qui ne soit satisfaite que par une seule et que nous pouvons dire généralisant le mieux.

Le fait qu'il existe une infinité de solutions vient du fait que le problème d'apprentissage est un problème mal posé, il ne peut donc pas y en avoir un qui se généralise le mieux. De plus, aucun théorème du déjeuner gratuit, quelle que soit la méthode que nous utilisons, ne peut garantir qu'il est le meilleur dans tous les problèmes d'apprentissage.

Pour parler simplement, nous ne savons pas laquelle se généralise le mieux.

Cette affirmation n'est pas vraiment vraie. Il existe des théorèmes sur la minimisation empirique des risques par Vapnik & Chervonenkis qui relient le nombre d'échantillons, la dimension VC de la méthode d'apprentissage et l'erreur de généralisation. Notez que cela ne s'applique qu'à un ensemble de données donné. Donc, étant donné un ensemble de données et une procédure d'apprentissage, nous connaissons les limites de la généralisation. Notez que, pour différents ensembles de données, il n'y a pas et ne peut pas être la meilleure procédure d'apprentissage en raison de l'absence de théorème de déjeuner gratuit.

L'optimisation des poids n'est pas un problème convexe, nous ne savons donc jamais que nous nous retrouvons avec un minimum global ou local. Alors pourquoi ne pas simplement vider les réseaux de neurones et chercher à la place un meilleur modèle ML?

Ici, il y a peu de choses que vous devez garder à l'esprit. L'optimisation d'un problème non convexe n'est pas aussi simple qu'un problème convexe; c'est vrai. Cependant, la classe des méthodes d'apprentissage qui sont convexes est limitée (régression linéaire, SVMs) et en pratique, elles fonctionnent moins bien que la classe des méthodes non convexes (boosting, CNNs) sur une variété de problèmes. La partie cruciale est donc qu'en pratique les réseaux de neurones fonctionnent mieux. Bien qu'il existe un certain nombre d'éléments très importants qui permettent au bon fonctionnement des réseaux de neurones:

  1. Ils peuvent être appliqués à de très grands ensembles de données en raison de la descente de gradient stochastique.
  2. Contrairement aux SVM, l'inférence avec des réseaux profonds ne dépend pas de l'ensemble de données. Cela rend les réseaux neuronaux efficaces au moment du test.
  3. Avec les réseaux neuronaux, il est possible de contrôler directement leur capacité d'apprentissage (pensez au nombre de paramètres) simplement en ajoutant plus de couches ou en les agrandissant. Ceci est crucial car pour différents jeux de données, vous souhaiterez peut-être des modèles plus grands ou plus petits.

Quelque chose que nous comprenons et quelque chose qui est cohérent avec un ensemble d'équations mathématiques? Linéaire et SVM n'ont pas ces inconvénients mathématiques et sont entièrement cohérents avec un ensemble d'équations mathématiques. Pourquoi ne pas simplement penser sur les mêmes lignes (pas nécessairement linéaire cependant) et proposer un nouveau modèle ML mieux que les réseaux linéaires et SVM et neuronaux et l'apprentissage en profondeur?

Vider des choses qui fonctionnent parce qu'elles ne les comprennent pas n'est pas une bonne direction de recherche. D'un autre côté, faire un effort pour les comprendre est une excellente direction de recherche. De plus, je ne suis pas d'accord avec le fait que les réseaux de neurones sont incompatibles avec les équations mathématiques. Ils sont assez cohérents. Nous savons comment les optimiser et effectuer l'inférence.


-2

Que diriez-vous de visualiser les réseaux de neurones d'un point de vue expérimental? Ce n'est pas parce que nous les avons créés que nous sommes obligés de les comprendre intuitivement. Ou que nous ne sommes pas autorisés à jouer avec eux afin d'avoir une meilleure compréhension de ce qu'ils font.

Voici quelques réflexions que j'ai sur eux:

  • Structure: ce sont des hiérarchies. Ils sont comme des arbres qui partagent des intrants. Les racines sont les entrées et les feuilles sont la couche de sortie. Plus le calque est proche des sorties, plus il est pertinent pour elles, plus le niveau d'abstraction qu'il contient (il s'agit plus de l'image que des pixels).
  • Fonctionnalité: ils "jouent" avec les données, le modus operandi est d'expérimenter les relations dans les neurones (poids) jusqu'à ce que les choses "cliquent" (la marge d'erreur est acceptable).

Cela correspond à notre façon de penser. C'est même cohérent avec le fonctionnement de la méthode scientifique. Ainsi, en fissurant les réseaux de neurones, nous pouvons également résoudre la question générale de ce que représente la connaissance.


-3

N'oubliez pas, il existe un vaste domaine de recherche qui utilise la modélisation LMs, GLM, multi-niveaux. Dernièrement, les techniques bayésiennes et le hamiltonien Monte Carlo (la communauté STAN est vraiment à l'avant-garde) sont arrivés à maturité et un certain nombre de problèmes résolus par STAN très facilement et n'ont pas vraiment besoin de NN ou de filets profonds. La recherche en sciences sociales, la microéconomie sont deux (grands) exemples de tels domaines qui adoptent Stan rapidement.

Les modèles Stan sont très "lisibles". Les coefficients ont en fait une interprétation distributionnelle postérieure, tout comme les prédictions. Les priors font partie du processus de génération de données et n'ont pas besoin d'être conjugués pour être performants (comme les gibbs). Le modèle adapté à Stan est un délice, il ajuste en fait les paramètres MCMC embêtants automatiquement et sacrément bien et vous avertit lorsque l'exploration est bloquée avec de très belles visualisations.

Si vous ne l'avez pas déjà essayé, voyez des démos stan impressionnantes ici ).

À la fin de la journée, je pense que les gens ne parlent pas tellement de ces choses parce que la recherche dans ce domaine et les problèmes ne sont pas aussi "sexy" / "cool" qu'avec les NN.


-5

Qu'est-ce qui se passe généralement quand il n'y a pas de cohérence mathématique (au moins dans ce cas de réseaux de neurones) ... quand il ne donne pas les résultats souhaités, sur le test, votre patron reviendra et dira ... essayez Drop out (quels poids, quelle couche, combien est votre mal de tête car il n'y a pas de moyen mathématique pour le déterminer), donc après avoir essayé et espérons avoir obtenu une amélioration marginale mais pas la souhaitée, votre patron reviendra et dira pourquoi pas essayer la décroissance du poids (quel facteur?)? et plus tard, pourquoi n'essayez-vous pas ReLU ou une autre activation sur certaines couches, et toujours pas, pourquoi ne pas essayer la «mise en commun maximale»? toujours pas, pourquoi ne pas essayer la normalisation par lots, toujours pas, ou au moins la convergence, mais pas le résultat souhaité, Oh vous êtes dans un minimum local, essayez un programme de rythme d'apprentissage différent, il suffit de changer l'architecture du réseau? et répétez tout ci-dessus dans différentes combinaisons! Gardez-le dans une boucle jusqu'à ce que vous réussissiez!

D'un autre côté, lorsque vous essayez un SVM cohérent, après convergence, si le résultat n'est pas bon, alors d'accord, le noyau linéaire que nous utilisons n'est pas assez bon car les données peuvent ne pas être linéaires, utilisez un noyau de forme différente, essayez un noyau de forme différente si vous avez un pressentiment, sinon, laissez-le, c'est une limitation de SVM.

Ce que je dis, c'est que les réseaux de neurones sont tellement incohérents, que ce n'est même pas faux! Il n'accepte jamais sa défaite! L'ingénieur / concepteur prend la charge, au cas où cela ne fonctionnerait pas comme souhaité.


3
Cela ne me semble pas contenir de réponse à votre propre question. Pensez-vous que vous pourriez le modifier pour qu'il ressemble moins à une diatribe, et expliquez en quoi cela explique pourquoi les réseaux de neurones et l'apprentissage profond peuvent être plus utiles qu'un modèle ML (ce qui semble être votre question d'origine)?
Silverfish

1
Son point est qu'avec SVM nous savons quand nous avons fait du mieux que nous pouvons, mais avec NNs nous ne pouvons pas savoir. Sans doute, étant donné la facilité avec laquelle DL est dupe, même des mesures comme l'erreur ne nous disent pas à quel point le modèle fonctionne vraiment.
yters

1
@yters, oui, mais le commentaire de silverfish était que ce n'est pas une réponse à pourquoi ne pas vider DL. C'est plus proche d'une reformulation de la question. Je suggère de le fusionner avec la question.
P.Windridge
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.