Questions marquées «fisher-information»

Les informations de Fisher mesurent la courbure de la log-vraisemblance et peuvent être utilisées pour évaluer l'efficacité des estimateurs.


2
Question de base sur la matrice d'information de Fisher et sa relation avec les erreurs standard et de hesse
Ok, c'est une question assez fondamentale, mais je suis un peu confus. Dans ma thèse j'écris: Les erreurs types peuvent être trouvées en calculant l'inverse de la racine carrée des éléments diagonaux de la matrice (observée) de Fisher Information: -logLI(μ,σ2)=H-1sμ^,σ^2=1I(μ^,σ^2)−−−−−−√sμ^,σ^2=1I(μ^,σ^2)\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*} Etant donné que la commande d'optimisation dans R …

3
Quel type d'information est l'information Fisher?
Supposons que nous ayons une variable aléatoire . Si était le vrai paramètre, la fonction de vraisemblance devrait être maximisée et la dérivée égale à zéro. C'est le principe de base de l'estimateur du maximum de vraisemblance.X∼f(x|θ)X∼f(x|θ)X \sim f(x|\theta)θ0θ0\theta_0 Si je comprends bien, les informations Fisher sont définies comme I(θ)=E[(∂∂θf(X|θ))2]I(θ)=E[(∂∂θf(X|θ))2]I(\theta) …

3
Connexion entre la métrique de Fisher et l'entropie relative
Quelqu'un peut-il prouver le lien suivant entre la métrique d'information de Fisher et l'entropie relative (ou divergence KL) d'une manière purement mathématique rigoureuse? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3)g i , j = ∫ ∂ i ( log p ( …


2
Pourquoi la matrice d'information de Fisher est-elle semi-définie positive?
Soit . La matrice d'informations de Fisher est définie comme suit:θ∈Rnθ∈Rn\theta \in R^{n} I(θ)i,j=−E[∂2log(f(X|θ))∂θi∂θj∣∣∣θ]I(θ)i,j=−E[∂2log⁡(f(X|θ))∂θi∂θj|θ]I(\theta)_{i,j} = -E\left[\frac{\partial^{2} \log(f(X|\theta))}{\partial \theta_{i} \partial \theta_{j}}\bigg|\theta\right] Comment puis-je prouver que la matrice d'informations de Fisher est semi-définie positive?


2
Pourquoi utilise-t-on exactement les informations de Fisher observées?
Dans le cadre du maximum de vraisemblance standard (iid échantillon d'une certaine distribution de densité f y ( y | θ 0 )) et dans le cas d'un modèle correctement spécifié, les informations de Fisher sont données parY1,…,YnY1,…,YnY_{1}, \ldots, Y_{n}fy(y|θ0fy(y|θ0f_{y}(y|\theta_{0} I(θ)=−Eθ0[∂2θ2lnfy(θ)]I(θ)=−Eθ0[∂2θ2ln⁡fy(θ)]I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right] où l'attente est prise par …

2
La matrice d'information observée est un estimateur cohérent de la matrice d'information attendue?
J'essaie de prouver que la matrice d'information observée évaluée à l'estimateur du maximum de vraisemblance faiblement cohérent (MLE) est un estimateur faiblement cohérent de la matrice d'information attendue. C'est un résultat largement cité mais personne ne donne de référence ou de preuve (j'ai épuisé je pense les 20 premières pages …

1
Quelle est l'intuition derrière les échantillons échangeables sous l'hypothèse nulle?
Les tests de permutation (également appelés test de randomisation, test de re-randomisation ou test exact) sont très utiles et s'avèrent utiles lorsque l'hypothèse de distribution normale requise par exemple t-testn'est pas remplie et lorsque la transformation des valeurs par classement des un test non paramétrique comme Mann-Whitney-U-testcela entraînerait la perte …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
Conditions d'existence d'une matrice d'information Fisher
Différents manuels citent différentes conditions d'existence d'une matrice d'information de Fisher. Plusieurs de ces conditions sont énumérées ci-dessous, chacune d'entre elles apparaissant dans certaines, mais pas toutes, des définitions de «matrice d'information de Fisher». Existe-t-il un ensemble standard et minimal de conditions? Parmi les 5 conditions ci-dessous, lesquelles peuvent être …


2
Déterminant de la matrice d'information de Fisher pour un modèle sur-paramétré
Considérons une variable aléatoire de Bernoulli avec le paramètre (probabilité de succès). La fonction de vraisemblance et les informations de Fisher (une matrice ) sont:θ 1 × 1X∈{0,1}X∈{0,1}X\in\{0,1\}θθ\theta1×11×11 \times 1 L1(θ;X)I1(θ)=p(X|θ)=θX(1−θ)1−X=detI1(θ)=1θ(1−θ)L1(θ;X)=p(X|θ)=θX(1−θ)1−XI1(θ)=detI1(θ)=1θ(1−θ) \begin{align} \mathcal{L}_1(\theta;X) &= p(\left.X\right|\theta) = \theta^{X}(1-\theta)^{1-X} \\ \mathcal{I}_1(\theta) &= \det \mathcal{I}_1(\theta) = \frac{1}{\theta(1-\theta)} \end{align} Considérons maintenant une version "sur-paramétrisée" …

1
Quel modèle d'apprentissage en profondeur peut classer des catégories qui ne s'excluent pas mutuellement
Exemples: J'ai une phrase dans la description de poste: "Java senior engineer in UK". Je veux utiliser un modèle d'apprentissage profond pour le prédire en 2 catégories: English et IT jobs. Si j'utilise un modèle de classification traditionnel, il ne peut prédire qu'une seule étiquette avec softmaxfonction à la dernière …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
Informations de Fisher observées en cours de transformation
D'après "In All Lik vraisemblance: modélisation statistique et inférence utilisant la vraisemblance" de Y. Pawitan, la probabilité d'une re-paramétrisation θ↦g(θ)=ψθ↦g(θ)=ψ\theta\mapsto g(\theta)=\psi est définie comme L∗(ψ)=max{θ:g(θ)=ψ}L(θ)L∗(ψ)=max{θ:g(θ)=ψ}L(θ) L^*(\psi)=\max_{\{\theta:g(\theta)=\psi\}} L(\theta) sorte que si ggg est un- à un, puis L∗(ψ)=L(g−1(ψ))L∗(ψ)=L(g−1(ψ))L^*(\psi)=L(g^{-1}(\psi)) (p. 45). J'essaie de montrer l'exercice 2.20 qui déclare que si θθ\theta est …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.