L'impression que j'ai eue, sur la base de plusieurs articles, livres et articles que j'ai lus, est que la manière recommandée d'ajuster une distribution de probabilité sur un ensemble de données consiste à utiliser l'estimation du maximum de vraisemblance (MLE). Cependant, en tant que physicien, une manière plus intuitive consiste à simplement ajuster le pdf du modèle au pdf empirique des données en utilisant les moindres carrés. Pourquoi alors le MLE est-il meilleur que les moindres carrés pour ajuster les distributions de probabilité? Quelqu'un pourrait-il me signaler un document / livre scientifique qui répond à cette question?
Mon intuition est que MLE ne suppose pas un modèle de bruit et que le "bruit" dans le pdf empirique est hétéroscédastique et n'est pas normal.