Je pense que vous avez essentiellement mis le doigt sur la tête dans la question, mais je vais voir si je peux ajouter quelque chose de toute façon. Je vais répondre à cela de façon un peu détournée ...
Le domaine des statistiques robustes examine la question de savoir quoi faire lorsque l'hypothèse gaussienne échoue (dans le sens où il y a des valeurs aberrantes):
on suppose souvent que les erreurs de données sont normalement distribuées, au moins approximativement, ou que le théorème central limite peut être utilisé pour produire des estimations normalement distribuées. Malheureusement, lorsqu'il y a des valeurs aberrantes dans les données, les méthodes classiques ont souvent de très mauvaises performances
Celles-ci ont également été appliquées en ML, par exemple dans Mika el al. (2001) A Mathematical Programming Approach to the Kernel Fisher Algorithm , ils décrivent comment la perte robuste de Huber peut être utilisée avec KDFA (avec d'autres fonctions de perte). Bien sûr, il s'agit d'une perte de classification, mais la KFDA est étroitement liée à la machine à vecteur de pertinence (voir la section 4 du document Mika).
Comme l'indique la question, il existe un lien étroit entre les fonctions de perte et les modèles d'erreur bayésiens (voir ici pour une discussion).
Cependant, il est vrai que dès que vous commencez à incorporer des fonctions de perte "funky", l'optimisation devient difficile (notez que cela se produit également dans le monde bayésien). Ainsi, dans de nombreux cas, les gens recourent à des fonctions de perte standard faciles à optimiser et effectuent plutôt un prétraitement supplémentaire pour s'assurer que les données sont conformes au modèle.
L'autre point que vous mentionnez est que le CLT ne s'applique qu'aux échantillons qui sont IID. C'est vrai, mais les hypothèses (et l'analyse qui l'accompagne) de la plupart des algorithmes sont les mêmes. Lorsque vous commencez à regarder des données non-IID, les choses deviennent beaucoup plus délicates. Un exemple est s'il y a une dépendance temporelle, auquel cas l'approche est généralement de supposer que la dépendance ne couvre qu'une certaine fenêtre, et les échantillons peuvent donc être considérés approximativement comme des IDI en dehors de cette fenêtre (voir par exemple ce papier brillant mais résistant Chromatic PAC -Bayes Bounds for Non-IID Data: Applications to Ranking and Stationary β-Mixing Process ), après quoi l'analyse normale peut être appliquée.
Donc, oui, cela se résume en partie à la commodité, et en partie parce que dans le monde réel, la plupart des erreurs semblent (grossièrement) gaussiennes. Il faut bien sûr toujours être prudent lorsque l'on regarde un nouveau problème pour s'assurer que les hypothèses ne sont pas violées.