une méthode d'estimation des paramètres d'un modèle statistique en choisissant la valeur du paramètre qui optimise la probabilité d'observer l'échantillon donné.
Question générale Supposons que nous ayons des données iid X1X1x_1 , X2X2x_2 , ... streaming. Nous voulons calculer récursivement l'estimation de la probabilité maximale de . Autrement dit, avoir calculé nous observons un nouveau x_n et souhaitons en quelque sorte mettre à jour progressivement notre estimation \ hat {\ boldsymbol …
Jeffrey Wooldridge, dans son analyse économétrique des données de sections et de panels (page 357), dit que la Hesse empirique "n'est pas garantie d'être définie positive, ou même semi-définie positive, pour l'échantillon particulier avec lequel nous travaillons.". Cela me semble faux car (à part les problèmes numériques), la Hesse doit …
Je me demande si l'estimation du maximum de vraisemblance n'a jamais été utilisée dans les statistiques. Nous en apprenons le concept mais je me demande quand il est réellement utilisé. Si nous supposons la distribution des données, nous trouvons deux paramètres, un pour la moyenne et un pour la variance, …
θ^θ^\hat\thetaθ∗θ∗\theta^*nnn∥θ^−θ∗∥‖θ^−θ∗‖\lVert\hat\theta-\theta^*\rVertO(1/n−−√)O(1/n)O(1/\sqrt n)∥Eθ^−θ∗∥‖Eθ^−θ∗‖\lVert \mathbb E\hat\theta - \theta^*\rVert∥Eθ^−θ^∥‖Eθ^−θ^‖\lVert \mathbb E\hat\theta - \hat\theta\rVertO(1/n−−√)O(1/n)O(1/\sqrt{n}) Je m'intéresse aux modèles qui ont un biais qui rétrécit plus rapidement que O(1/n−−√)O(1/n)O(1/\sqrt n) , mais où l'erreur ne diminue pas à ce rythme plus rapide car l'écart se rétrécit toujours comme O(1/n−−√)O(1/n)O(1/\sqrt n) . En particulier, je voudrais …
Cette question traite de l'estimation du maximum de vraisemblance restreint (REML) dans une version particulière du modèle linéaire, à savoir: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), où X(α)X(α)X(\alpha) est une matrice ( n×pn×pn \times p ) paramétrée par α∈Rkα∈Rk\alpha \in \mathbb R^k , tout comme Σ(α)Σ(α)\Sigma(\alpha) …
Dans le premier chapitre de l'ouvrage Algebraic Geometry and Statistical Learning Theory qui parle de la convergence des estimations dans différents espaces fonctionnels, il mentionne que l'estimation bayésienne correspond à la topologie de la distribution de Schwartz, tandis que l'estimation du maximum de vraisemblance correspond à la topologie sup-normale (à …
Il semble y avoir beaucoup de confusion dans la comparaison de l'utilisation à l' glmnetintérieur caretpour rechercher un lambda optimal et à utiliser cv.glmnetpour faire la même tâche. De nombreuses questions ont été posées, par exemple: Modèle de classification train.glmnet vs cv.glmnet? Quelle est la bonne façon d'utiliser glmnet avec …
MLE = Estimation du maximum de vraisemblance MAP = Maximum a posteriori Le MLE est intuitif / naïf en ce qu'il ne commence qu'avec la probabilité d'observation compte tenu du paramètre (c'est-à-dire la fonction de vraisemblance) et essaie de trouver le paramètre le plus conforme à l'observation . Mais il …
Étant donné un ensemble de données avec des résultats binaires y∈{0,1}ny∈{0,1}ny\in\{0,1\}^n et une matrice prédictive X∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p} , le modèle de régression logistique standard estime les coefficients βMLEβMLE\beta_{MLE} qui maximisent la vraisemblance binomiale. Lorsque XXX est de rang complet βMLEβMLE\beta_{MLE} est unique; lorsque la séparation parfaite n'est pas présente, elle …
C'est une sorte de pensée étrange que j'ai eue en examinant certaines anciennes statistiques et pour une raison quelconque, je n'arrive pas à penser à la réponse. Un PDF continu nous indique la densité des valeurs d'observation dans une plage donnée. À savoir, si X∼N(μ,σ2)X∼N(μ,σ2)X \sim N(\mu,\sigma^2) , par exemple, …
J'ai récemment passé en revue quelques vieux articles de Nancy Reid, Barndorff-Nielsen, Richard Cox et, oui, un petit Ronald Fisher sur le concept de "l'inférence conditionnelle" dans le paradigme fréquentiste, ce qui semble signifier que les inférences sont basées en considérant uniquement les "sous-ensemble pertinent" de l'espace d'échantillonnage, et non …
Je vois mentionné à divers endroits que l'ANOVA fait son estimation en utilisant la méthode des moments. Je suis confus par cette affirmation parce que, même si je ne suis pas familier avec la méthode des moments, ma compréhension est que c'est quelque chose de différent et non équivalent à …
Cette question est inspirée de la longue discussion dans les commentaires ici: Comment la régression linéaire utilise-t-elle la distribution normale? Dans le modèle de régression linéaire habituel, pour plus de simplicité, écrit ici avec un seul prédicteur: où les sont des constantes connues et sont des termes d'erreur indépendants de …
Lors de la régression, si nous nous appuyons sur la définition de: Quelle est la différence entre une vraisemblance partielle, une vraisemblance de profil et une vraisemblance marginale? cela, Maximum de vraisemblance Trouvez β et θ qui maximise L (données β, θ |). Tandis que, vraisemblance marginale Nous intégrons θ …
Après centrage, les deux mesures x et −x peuvent être supposées être des observations indépendantes d'une distribution de Cauchy avec fonction de densité de probabilité: f(x:θ)=f(x:θ)=f(x :\theta) = 1π(1+(x−θ)2)1π(1+(x−θ)2)1\over\pi (1+(x-\theta)^2) ,−∞<x<∞,−∞<x<∞, -∞ < x < ∞ Montrer que si le MLE de θ est 0, mais si x 2 > …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.