Comme AdamO le suggère dans le commentaire ci-dessus, vous ne pouvez pas vraiment faire mieux que de lire le chapitre 4 des éléments de l'apprentissage statistique (que j'appellerai HTF) qui compare LDA avec d'autres méthodes de classification linéaire, en donnant de nombreux exemples, et discute également de l'utilisation du LDA comme technique de réduction de dimension dans la veine de l'ACP qui, comme le souligne ttnphns, est plutôt populaire.
Du point de vue de la classification, je pense que la principale différence est la suivante. Imaginez que vous avez deux classes et que vous souhaitez les séparer. Chaque classe a une fonction de densité de probabilité. La meilleure situation possible serait si vous connaissiez ces fonctions de densité, car vous pourriez alors prédire à quelle classe un point appartiendrait en évaluant les densités spécifiques à la classe à ce point.
Certains types de classificateurs fonctionnent en trouvant une approximation des fonctions de densité des classes. LDA est l'un d'entre eux; il fait l'hypothèse que les densités sont normales à plusieurs variables avec la même matrice de covariance. C'est une hypothèse forte, mais si elle est approximativement correcte, vous obtenez un bon classificateur. De nombreux autres classificateurs adoptent également ce type d'approche, mais essaient d'être plus flexibles que de supposer la normalité. Par exemple, voir page 108 de HTF.
En revanche, à la page 210, HTF prévient:
Si la classification est le but ultime, alors bien apprendre les densités de classes séparées peut être inutile et peut en fait être trompeur.
Une autre approche consiste simplement à rechercher une frontière entre les deux classes, ce que fait le perceptron. Une version plus sophistiquée de ceci est la machine à vecteurs de support. Ces méthodes peuvent également être combinées avec l'ajout de fonctionnalités aux données à l'aide d'une technique appelée kernelization. Cela ne fonctionne pas avec LDA car il ne préserve pas la normalité, mais ce n'est pas un problème pour un classificateur qui cherche juste un hyperplan de séparation.
La différence entre LDA et un classifieur qui cherche un hyperplan de séparation est comme la différence entre un test t et une alternative non paramétrique dans les statistiques ordinaires. Ce dernier est plus robuste (aux valeurs aberrantes, par exemple) mais le premier est optimal si ses hypothèses sont satisfaites.
Une dernière remarque: il pourrait être utile de mentionner que certaines personnes peuvent avoir des raisons culturelles d'utiliser des méthodes comme le LDA ou la régression logistique, ce qui peut obligatoirement générer des tableaux ANOVA, des tests d'hypothèse et des choses rassurantes comme ça. LDA a été inventé par Fisher; le perceptron était à l'origine un modèle pour un neurone humain ou animal et n'avait aucun lien avec les statistiques. Cela fonctionne également dans l'autre sens; certaines personnes pourraient préférer des méthodes telles que les machines à vecteurs de support, car elles ont le genre de hipster-cred de pointe auquel les méthodes du XXe siècle ne peuvent tout simplement pas correspondre. Cela ne veut pas dire qu'ils sont meilleurs. (Un bon exemple de cela est discuté dans Machine Learning for Hackers , si je me souviens bien.)