La plupart des procédures d'estimation impliquent de trouver des paramètres qui minimisent (ou maximisent) une fonction objective. Par exemple, avec MCO, nous minimisons la somme des résidus au carré. Avec l’estimation du maximum de vraisemblance, nous maximisons la fonction log-vraisemblance. La différence est triviale: la minimisation peut être convertie en maximisation en utilisant le négatif de la fonction objectif.
Parfois, ce problème peut être résolu algébriquement en produisant une solution de forme fermée. Avec OLS, vous résolvez le système de conditions de premier ordre et obtenez la formule familière (bien que vous ayez probablement encore besoin d’un ordinateur pour évaluer la réponse). Dans d'autres cas, cela n'est pas mathématiquement possible et vous devez rechercher des valeurs de paramètres à l'aide d'un ordinateur. Dans ce cas, l'ordinateur et l'algorithme jouent un rôle plus important. Les moindres carrés non linéaires en sont un exemple. Vous n'obtenez pas une formule explicite; tout ce que vous obtenez est une recette que vous devez mettre en œuvre sur ordinateur. La recette peut commencer par une première estimation de la nature des paramètres et de leur variation. Vous essayez ensuite différentes combinaisons de paramètres et vous voyez lequel vous donne la valeur de fonction objectif la plus basse / la plus élevée. C'est l'approche de la force brute et prend beaucoup de temps. Par exemple,105 combinaisons, et cela vous met simplement dans le voisinage de la bonne réponse si vous êtes chanceux. Cette approche s'appelle la recherche par grille.
Vous pouvez également commencer par une estimation et l'affiner dans une certaine direction jusqu'à ce que les améliorations de la fonction objectif soient inférieures à une valeur. Celles-ci sont généralement appelées méthodes de gradient (bien que d'autres n'utilisent pas le gradient pour choisir la direction dans laquelle aller, comme les algorithmes génétiques et le recuit simulé). Certains problèmes, comme celui-ci, vous garantissent de trouver rapidement la bonne réponse (fonctions objectives quadratiques). D'autres ne donnent aucune telle garantie. Vous craignez peut-être de ne pas être optimisé au niveau local, mais plutôt global, de sorte que vous essayez une série de suppositions initiales. Vous constaterez peut-être que des paramètres très différents vous donnent la même valeur que la fonction objectif, vous ne savez donc pas quel jeu choisir.
Voici un bon moyen d'obtenir l'intuition. Supposons que vous ayez un modèle de régression exponentiel simple où le seul régresseur est l'interception:
E[y]=exp{α}
La fonction objectif est
QN(α)=−12N∑iN(yi−exp{α})2
Avec ce problème simple, les deux approches sont réalisables. La solution sous forme fermée que vous obtenez en prenant le dérivé est . Vous pouvez également vérifier que tout ce qui vous donne une valeur plus élevée de la fonction objectif en branchant plutôt . Si vous aviez des régresseurs, la solution analytique disparaît.α∗=lny¯ln(y¯+k)