Pourquoi supposons-nous que l'erreur est normalement distribuée?

Je me demande pourquoi utilisons-nous l'hypothèse gaussienne lors de la modélisation de l'erreur. Dans le cours de ML de Stanford , le professeur Ng le décrit essentiellement de deux manières:

C'est mathématiquement pratique. (Il est lié à l'ajustement des moindres carrés et facile à résoudre avec pseudoinverse)
En raison du théorème de la limite centrale, nous pouvons supposer qu'il y a beaucoup de faits sous-jacents affectant le processus et la somme de ces erreurs individuelles aura tendance à se comporter comme dans une distribution normale moyenne nulle. En pratique, il semble qu'il en soit ainsi.

Je m'intéresse en fait à la deuxième partie. Le théorème de la limite centrale fonctionne pour les échantillons iid pour autant que je sache, mais nous ne pouvons pas garantir que les échantillons sous-jacents soient iid.

Avez-vous des idées sur l'hypothèse gaussienne de l'erreur?

regression normality-assumption pac-learning

— Petrichor
source

De quel cadre parlez-vous? Classification, régression ou quelque chose de plus général?

— tdc

J'ai posé la question pour le cas général. La plupart des histoires commencent avec l'hypothèse d'erreur gaussienne. Mais, personnellement, mon intérêt est les factorisations matricielles et les solutions de modèles linéaires (disons donc la régression).

— petrichor

Pertinent: stats.stackexchange.com/questions/120776/…

— kjetil b halvorsen

Je pense que vous avez essentiellement mis le doigt sur la tête dans la question, mais je vais voir si je peux ajouter quelque chose de toute façon. Je vais répondre à cela de façon un peu détournée ...

Le domaine des statistiques robustes examine la question de savoir quoi faire lorsque l'hypothèse gaussienne échoue (dans le sens où il y a des valeurs aberrantes):

on suppose souvent que les erreurs de données sont normalement distribuées, au moins approximativement, ou que le théorème central limite peut être utilisé pour produire des estimations normalement distribuées. Malheureusement, lorsqu'il y a des valeurs aberrantes dans les données, les méthodes classiques ont souvent de très mauvaises performances

Celles-ci ont également été appliquées en ML, par exemple dans Mika el al. (2001) A Mathematical Programming Approach to the Kernel Fisher Algorithm , ils décrivent comment la perte robuste de Huber peut être utilisée avec KDFA (avec d'autres fonctions de perte). Bien sûr, il s'agit d'une perte de classification, mais la KFDA est étroitement liée à la machine à vecteur de pertinence (voir la section 4 du document Mika).

Comme l'indique la question, il existe un lien étroit entre les fonctions de perte et les modèles d'erreur bayésiens (voir ici pour une discussion).

Cependant, il est vrai que dès que vous commencez à incorporer des fonctions de perte "funky", l'optimisation devient difficile (notez que cela se produit également dans le monde bayésien). Ainsi, dans de nombreux cas, les gens recourent à des fonctions de perte standard faciles à optimiser et effectuent plutôt un prétraitement supplémentaire pour s'assurer que les données sont conformes au modèle.

L'autre point que vous mentionnez est que le CLT ne s'applique qu'aux échantillons qui sont IID. C'est vrai, mais les hypothèses (et l'analyse qui l'accompagne) de la plupart des algorithmes sont les mêmes. Lorsque vous commencez à regarder des données non-IID, les choses deviennent beaucoup plus délicates. Un exemple est s'il y a une dépendance temporelle, auquel cas l'approche est généralement de supposer que la dépendance ne couvre qu'une certaine fenêtre, et les échantillons peuvent donc être considérés approximativement comme des IDI en dehors de cette fenêtre (voir par exemple ce papier brillant mais résistant Chromatic PAC -Bayes Bounds for Non-IID Data: Applications to Ranking and Stationary β-Mixing Process ), après quoi l'analyse normale peut être appliquée.

Donc, oui, cela se résume en partie à la commodité, et en partie parce que dans le monde réel, la plupart des erreurs semblent (grossièrement) gaussiennes. Il faut bien sûr toujours être prudent lorsque l'on regarde un nouveau problème pour s'assurer que les hypothèses ne sont pas violées.

— tdc
source

+1 Merci beaucoup, surtout pour avoir mentionné les statistiques robustes et non robustes. J'observe que la moyenne médiane et alpha est généralement meilleure que la moyenne dans la pratique, mais je ne connaissais pas la théorie derrière eux.

— petrichor

Un autre élément de commodité associé aux données normalement distribuées est que la corrélation 0 implique l'indépendance.

— AdamO

Le commentaire sur l'IID-ness n'est pas tout à fait correct. Il existe (plusieurs) théorèmes centraux très généraux qui s'appliquent lorsque les résultats sont indépendants mais ne sont pas distribués de manière identique; voir par exemple le Lindeberg CLT. Il y a aussi des résultats CLT qui n'ont même pas besoin d'indépendance; ils peuvent résulter d'observations échangeables, par exemple.

— invité le