Quelle est l'idée «fondamentale» de l'apprentissage automatique pour estimer les paramètres?


19

L'idée «fondamentale» des statistiques pour estimer les paramètres est le maximum de vraisemblance . Je me demande quelle est l'idée correspondante dans l'apprentissage automatique.

Qn 1. Serait-il juste de dire que l'idée «fondamentale» de l'apprentissage automatique pour estimer les paramètres est: «Fonctions de perte»

[Remarque: J'ai l'impression que les algorithmes d'apprentissage automatique optimisent souvent une fonction de perte et donc la question ci-dessus.]

Qn 2: Existe-t-il une littérature qui tente de combler le fossé entre les statistiques et l'apprentissage automatique?

[Remarque: Peut-être, en reliant les fonctions de perte à la probabilité maximale. (par exemple, OLS est équivalent à la probabilité maximale d'erreurs normalement distribuées, etc.)]


3
Je ne vois pas l'intérêt de ces questions à essayer de combler un fossé fictif. quel est le but de tout ça? en plus il y a beaucoup d'autres idées qui sont fondamentales en statistique ... et la fonction de perte a au moins 100 ans. pouvez-vous réduire des statistiques comme ça? peut-être que votre question porte sur le concept fondamental en datamining / statistique / machine learning comme vous l'appelez ... Alors la question existe déjà et est trop large stats.stackexchange.com/questions/372/… .
Robin Girard

Eh bien, je ne connais pas grand chose à l'apprentissage automatique ni à ses liens avec les statistiques. Dans tous les cas, regardez cette question: stats.stackexchange.com/questions/6/… qui suggère qu'au moins les approches pour répondre aux mêmes questions sont différentes. Est-ce que ce n'est pas «naturel» de se demander s'il existe une sorte de lien entre eux? Oui, je suis d'accord qu'il y a beaucoup d'idées dans les statistiques. C'est pourquoi j'ai fondamentalement entre guillemets et restreint la portée à l'estimation des paramètres d'intérêt.

@Srikant lien entre quoi? notez que j'aime vraiment rechercher des liens entre des objets bien définis, je trouve ça vraiment naturel.
robin girard

6
En tant qu'apprenant de la machine, je suis ici pour vous dire que nous maximisons les probabilités. Tout le temps. Des charges de documents d'apprentissage automatique commencent par "hé regardez ma probabilité, regardez comment elle factorise, regardez-moi maximiser". Je dirais qu'il est dangereux de revendiquer une base fondamentale de l'une ou l'autre discipline en termes de techniques d'inférence. C'est plus à quelle conférence vous allez!
Mike Dewar

6
Je ne pense pas que les Bayésiens seraient d'accord avec l'idée que la probabilité maximale est l'idée fondamentale des statistiques.
Marc Claesen

Réponses:


17

Si les statistiques visent à maximiser la probabilité, alors l'apprentissage automatique consiste à minimiser les pertes. Comme vous ne connaissez pas la perte que vous subirez sur les données futures, vous minimisez une approximation, c'est-à-dire une perte empirique.

Par exemple, si vous avez une tâche de prédiction et que vous êtes évalué par le nombre d'erreurs de classification, vous pouvez entraîner des paramètres afin que le modèle résultant produise le plus petit nombre d'erreurs de classification sur les données d'entraînement. Le "nombre de classifications erronées" (c'est-à-dire la perte 0-1) est une fonction de perte difficile à utiliser car il n'est pas différentiable, vous pouvez donc l'approcher avec un "substitut" fluide. Par exemple, la perte de journal est une limite supérieure à la perte 0-1, vous pouvez donc minimiser cela à la place, et cela se révélera être le même que maximiser la probabilité conditionnelle des données. Avec le modèle paramétrique, cette approche devient équivalente à la régression logistique.

Dans une tâche de modélisation structurée et une approximation log-loss de la perte 0-1, vous obtenez quelque chose de différent de la vraisemblance conditionnelle maximale, vous maximiserez plutôt le produit des vraisemblances marginales (conditionnelles).

Pour obtenir une meilleure approximation de la perte, les gens ont remarqué que le modèle de formation pour minimiser la perte et utiliser cette perte comme estimation de la perte future est une estimation trop optimiste. Ainsi, pour une minimisation plus précise (véritable perte future), ils ajoutent un terme de correction de biais à la perte empirique et minimisent cela, c'est ce que l'on appelle la minimisation structurée du risque.

En pratique, il peut être trop difficile de déterminer le bon terme de correction de biais, vous ajoutez donc une expression "dans l'esprit" du terme de correction de biais, par exemple, la somme des carrés des paramètres. En fin de compte, presque toutes les approches de classification supervisée en apprentissage machine paramétrique finissent par former le modèle pour minimiser les éléments suivants

iL(m(xi,w),yi)+P(w)

est votre modèle paramétré par le vecteur w , i est repris par tous les points de données { x i , y i } , L est une bonne approximation calculatrice de votre perte réelle et P ( w ) est un terme de correction de biais / régularisationmwi{xi,yi}LP(w)

Par exemple, si votre , y { - 1 , 1 } , une approche typique serait de laisser m ( x ) = signe ( w x ) , L ( m ( x ) , y ) = - log ( y × ( x w ) ) , P (x{1,1}dy{1,1}m(x)=sign(wx)L(m(x),y)=log(y×(xw)) , et choisissez q par validation croiséeP(w)=q×(ww)q


3
J'adorerais voir cette perte minimiser dans le clustering, le kNN ou les fougères aléatoires ...

Eh bien, pour une caractérisation de la fonction de perte du plus proche voisin k-moyennes, voir la sous-section (2.5) pertinente de cet article: hpl.hp.com/conferences/icml2003/papers/21.pdf
John L. Taylor

@John Still, c'est un mélange d'objectifs et de raisons. Dans une large mesure, vous pouvez expliquer chaque algorithme en termes de minimisation de quelque chose et appeler cela quelque chose de «perte». kNN n'a pas été inventé de cette façon: les gars, j'ai pensé à la perte comme ça, optimisons-la et voyons ce qui va se passer !; plutôt les gars, disons que la décision est plus moins continue sur l'espace des fonctionnalités, alors si nous avions une bonne mesure de similitude ... et ainsi de suite.

2
"Si les statistiques visent à maximiser la probabilité, alors l'apprentissage automatique consiste à minimiser les pertes" Je suis en désaccord avec votre prémisse - fortement et dans son intégralité. C'était peut-être vrai des statistiques en 1920, mais ce n'est certainement pas le cas aujourd'hui.
JMS

19

Je vais donner une réponse détaillée. Peut fournir plus de citations sur demande, bien que ce ne soit pas vraiment controversé.

  • Les statistiques ne consistent pas uniquement à maximiser (log) la probabilité. C'est un anathème pour les bayésiens de principe qui mettent à jour leurs postérieurs ou propagent leurs croyances à travers un modèle approprié.
  • Beaucoup de statistiques est au sujet de la minimisation des pertes. Et il en va de même pour le Machine Learning. La minimisation des pertes empiriques a une signification différente en ML. Pour une vision claire et narrative, consultez «La nature de l'apprentissage statistique» de Vapnik
  • L'apprentissage automatique ne consiste pas uniquement à minimiser les pertes. D'abord parce qu'il y a beaucoup de bayésiens en ML; deuxièmement, parce qu'un certain nombre d'applications en ML ont à voir avec l'apprentissage temporel et le DP approximatif. Bien sûr, il y a une fonction objective, mais elle a une signification très différente de celle de l'apprentissage "statistique".

Je ne pense pas qu'il y ait un écart entre les domaines, juste de nombreuses approches différentes, toutes se chevauchant dans une certaine mesure. Je ne ressens pas le besoin d'en faire des disciplines systématiques avec des différences et des similitudes bien définies, et étant donné la vitesse à laquelle elles évoluent, je pense que c'est une entreprise condamnée de toute façon.


8

Je ne peux pas poster un commentaire (l'endroit approprié pour ce commentaire) car je n'ai pas assez de réputation, mais la réponse acceptée comme la meilleure réponse par le propriétaire de la question manque le point.

"Si les statistiques visent à maximiser la probabilité, alors l'apprentissage automatique consiste à minimiser les pertes."

La probabilité est une fonction de perte. Maximiser la vraisemblance équivaut à minimiser une fonction de perte: la déviance, qui est juste -2 fois la fonction log-vraisemblance. De même, trouver une solution des moindres carrés consiste à minimiser la fonction de perte décrivant la somme résiduelle des carrés.

ML et stats utilisent des algorithmes pour optimiser l'ajustement d'une fonction (au sens large) aux données. L'optimisation implique nécessairement de minimiser certaines fonctions de perte.


1
Bon point, encore les principales différences sont ailleurs; premièrement, les statistiques consistent à adapter un modèle aux données dont nous disposons, ML consiste à adapter un modèle aux données que nous aurons; deuxièmement, les statistiques supposent qu'un processus que l'on observe est entièrement guidé par un modèle "caché" trivial et embarrassant qu'ils veulent fouiller, tandis que ML ESSAYE de rendre un modèle suffisamment complexe pour être indépendant du problème se comporte comme la réalité.

@mbq. C'est une caricature assez sévère des statistiques. J'ai travaillé dans cinq départements de statistiques universitaires et je ne pense pas avoir rencontré quelqu'un qui penserait à des statistiques comme ça.
Rob Hyndman

1
@Rob Caricature? Je pense que c'est ce qui rend les statistiques belles! Vous assumez tous ces gaussiens et linéarités et cela fonctionne - et il y a une raison à cela qui s'appelle l'expansion de Taylor. Le monde est l'enfer d'un complexe, mais en linéaire env. (ce qui représente souvent quatre-vingt-dix pour cent de la complexité) d'une gêne insignifiante. Le ML (et les statistiques non paramétriques) intervient dans ces quelques pour cent des situations où une approche plus subtile est nécessaire. Ce n'est tout simplement pas un déjeuner gratuit - si vous voulez des théorèmes, vous avez besoin d'hypothèses; si vous ne voulez pas d'hypothèses, vous avez besoin de méthodes approximatives.

@mbq. C'est suffisant. J'ai dû mal interpréter votre commentaire.
Rob Hyndman

4

Il y a une réponse triviale - il n'y a pas d'estimation des paramètres dans l'apprentissage automatique! Nous ne supposons pas que nos modèles sont équivalents à certains modèles d'arrière-plan masqués; nous traitons à la fois la réalité et le modèle comme des boîtes noires et nous essayons de secouer la boîte modèle (former dans la terminologie officielle) afin que sa sortie soit similaire à celle de la boîte de réalité.

Le concept non seulement de vraisemblance mais de sélection du modèle entier basé sur les données d'apprentissage est remplacé par l'optimisation de la précision (quelle que soit la définition; en principe la qualité d'utilisation souhaitée) des données invisibles; cela permet d'optimiser à la fois la précision et le rappel de manière couplée. Cela conduit au concept d'une capacité à généraliser, qui s'obtient de différentes manières selon le type d'apprenant.

La réponse à la deuxième question dépend fortement des définitions; je pense toujours que les statistiques non paramétriques sont quelque chose qui relie les deux.


Je ne suis pas sûr que ce soit tout à fait correct. Dans quel sens les méthodes d'apprentissage automatique fonctionnent-elles sans estimation des paramètres (dans un ensemble de modèles paramétriques ou sans distribution)?
John

1
Vous estimez / calculez quelque chose (le terme exact peut être différent). Par exemple, considérons un réseau neuronal. N'êtes-vous pas en train de calculer les poids du filet lorsque vous essayez de prédire quelque chose? De plus, lorsque vous dites que vous vous entraînez pour faire correspondre la sortie à la réalité, vous semblez implicitement parler d'une sorte de fonction de perte.

@John, @Srikant Learners ont des paramètres, mais ce ne sont pas des paramètres au sens statistique. Considérons la régression linéaire y = a x (sans terme libre pour simp.). a est un paramètre qui conviendra aux méthodes statistiques, alimenté par l'hypothèse que y = a x. L'apprentissage automatique essaiera simplement de produire un x lorsqu'on lui demandera x dans la plage de train (cela a du sens, car il ne suppose pas y = a x); il peut contenir des centaines de paramètres pour ce faire.

3
[citation requise]. En d'autres termes, réponse intrigante, même si elle ne correspond pas (au moins) à beaucoup de littérature ML.
gappy

1
Un classique est "Modélisation statistique: les deux cultures" de Breiman.

2

Je ne pense pas qu'il y ait une idée fondamentale autour de l'estimation des paramètres dans le Machine Learning. La foule ML sera heureuse de maximiser la probabilité ou la postérieure, tant que les algorithmes sont efficaces et prédisent "avec précision". L'accent est mis sur le calcul et les résultats des statistiques sont largement utilisés.

Si vous recherchez des idées fondamentales en général, alors dans la théorie de l'apprentissage informatique, le PAC est central; dans la théorie de l'apprentissage statistique, la minimisation des risques structurels ; et il y a d'autres domaines (par exemple, voir le post Science de la prédiction de John Langford).

Concernant les statistiques de transition / ML, la fracture semble exagérée. J'ai aimé la réponse de Gappy à la question "Deux cultures".


La foule statistique clique au hasard dans SPSS jusqu'à ce que la valeur de p souhaitée apparaisse ...

1

Vous pouvez réécrire un problème de maximisation de vraisemblance comme un problème de minimisation des pertes en définissant la perte comme la probabilité de log négatif. Si la probabilité est un produit de probabilités ou de densités de probabilité indépendantes, la perte sera une somme de termes indépendants, qui peuvent être calculés efficacement. De plus, si les variables stochastiques sont normalement distribuées, le problème de minimisation des pertes correspondant sera un problème des moindres carrés.

S'il est possible de créer un problème de minimisation des pertes en réécrivant une maximisation de vraisemblance, cela devrait être de préférer créer un problème de minimisation des pertes à partir de zéro, car cela entraînera un problème de minimisation des pertes qui est (espérons-le) plus théoriquement fondé et moins ad hoc. Par exemple, les poids, comme les moindres carrés pondérés, pour lesquels vous devez habituellement évaluer les valeurs, émergeront simplement du processus de réécriture du problème d'origine de maximisation de la probabilité et ont déjà (espérons-le) des valeurs optimales.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.