Calcul des intervalles de confiance via bootstrap sur des observations dépendantes

Le bootstrap, dans sa forme standard, peut être utilisé pour calculer les intervalles de confiance des statistiques estimées à condition que les observations soient iid. I. Visser et al. dans " Confidence Intervals for Hidden Markov Model Parameters ", a utilisé un bootstrap paramétrique pour calculer les IC des paramètres HMM. Cependant, lorsque nous ajustons un HMM sur une séquence d'observation, nous avons déjà supposé que les observations sont dépendantes (contrairement aux modèles de mélange).

J'ai deux questions:

Que fait l'hypothèse iid avec le bootstrap?
Pouvons-nous ignorer l'exigence iid dans un bootstrap paramétrique?

Visser et al. est brièvement la suivante:

Supposons que nous avons une séquence d'observation a résulté de l' échantillonnage d' un HMM de jeu réel , mais inconnue de paramètres . $Y=o_1,o_2,...,o_n$ $\theta=\theta_1,\theta_2,...,\theta_l$
Les paramètres peuvent être estimés en utilisant l'algorithme $\hat{\theta}=\hat{\theta}_1,\hat{\theta}_2,...,\hat{\theta}_l$
Utiliser le HMM estimée pour générer un échantillon d'amorce de taille : $n$ $Y^*=o^*_1,o^*_2,...,o^*_n$
Estimer les paramètres du HMM selon l'échantillon de $\hat{\theta}^*=\hat{\theta}^*_1,\hat{\theta}^*_2,...,\hat{\theta}^*_l$
Répéter les étapes 3 et 4 pour fois (par exemple = 1000) résultant en estimations $B$ $B$ $B$ $\hat{\theta}^*(1),\hat{\theta}^*(2),...,\hat{\theta}^*(B)$
Calculer le CI de chaque paramètre estimé en utilisant la distribution de dans les estimations bootstrap. $\hat{\theta}_i$ $\hat{\theta}^*_i$

Notes (mes conclusions):

La méthode des centiles doit être utilisée pour calculer les IC afin d'avoir une couverture correcte (la normalité est une mauvaise hypothèse).
Le biais de la distribution bootstrap doit être corrigé. Ce qui signifie que la moyenne de distribution de devrait être transféré à $\hat{\theta}^*_i$ $\hat{\theta}_i$

confidence-interval bootstrap hidden-markov-model

— Sadeghd
source

Première question en d'autres termes: quel est l'effet de l'hypothèse iid sur le bootstrap? Est-ce une hypothèse simplificatrice qui peut être supprimée en suivant un algorithme ou une formule plus complexe?

— Sadeghd

Réponses courtes: 1. Cela le simplifie. (Franchement, je n'ai pas compris la question). 2. Non, vous ne pouvez jamais l'ignorer, car le manque d'iid a des conséquences immédiates sur les écarts de tout ce que vous estimez.

Réponse moyenne: Le problème central du bootstrap est à peu près : «La procédure proposée reproduit-elle les caractéristiques des données? . La violation de l'hypothèse iid est un gros problème: vos données sont dépendantes, vous avez (très probablement) moins d'informations dans vos données que vous n'en auriez dans un échantillon iid de la même taille, et si vous exécutez un bootstrap naïf (rééchantillonnez l'individu observations), les erreurs standard que vous en tirerez seront trop petites. La procédure proposée contourne le problème du manque d'indépendance en capturant (ou du moins en essayant de capturer) la dépendance de la structure et des paramètres du modèle. En cas de succès, chaque échantillon d'amorçage reproduirait les fonctionnalités des données, selon les besoins.

Longue réponse:Il existe plusieurs couches d'hypothèses concernant le bootstrap, et même dans le cas le plus simple possible (données iid, estimation de la moyenne), vous devez faire au moins trois hypothèses: (1) la statistique d'intérêt est une fonction lisse des données (vrai dans le cas de la moyenne, pas si vrai même dans le cas des centiles, totalement différent avec, par exemple, les estimateurs d'appariement du plus proche voisin); (2) la distribution à partir de laquelle vous bootstrap est "proche" de la distribution de la population (fonctionne bien dans le cas des données iid; peut ne pas fonctionner correctement dans le cas des données dépendantes, où vous n'avez essentiellement qu'une seule trajectoire = une observation dans le cas de séries chronologiques, et vous devez invoquer des hypothèses supplémentaires comme la stationnarité et le mélange pour étendre cette observation unique en une quasi-population); (3) votre échantillonnage bootstrap Monte Carlo est une assez bonne approximation du bootstrap complet avec tous les sous-échantillons possibles (l'inexactitude de l'utilisation de Monte Carlo par rapport au bootstrap complet est beaucoup moins que l'incertitude que vous essayez de capturer). Dans le cas du bootstrap paramétrique, vous faites également l'hypothèse que (4) votre modèle explique parfaitement toutes les fonctionnalités des données.

$y=x\beta + \epsilon$ $[\epsilon] = \exp[ x\gamma]$ $\bar\sigma^2 (X'X)^{-1}$ $\bar\sigma^2$ $1/n \sum_i \exp[x_i \gamma]$ $(X'X)^{-1} \sum \exp[x_i \gamma] x_i x_i' (X'X)^{-1}$ ). Donc, si vous vouliez avoir une solution de bootstrap entièrement paramétrique, vous auriez dû adapter le modèle pour l'hétéroscédasticité avec le modèle pour la moyenne. Et si vous soupçonnez une corrélation sérielle ou autre, vous devrez également adapter le modèle pour cela. (Vous voyez, la saveur non paramétrique sans distribution du bootstrap a quasiment disparu pour le moment, car vous avez remplacé la voix des données par la voix synthétisée de votre modèle.)

La méthode que vous avez décrite fonctionne autour de l'hypothèse iid en créant un tout nouvel échantillon. Le plus gros problème avec le bootstrap de données dépendantes est de créer l'échantillon qui aurait les modèles de dépendance qui seraient suffisamment proches de ceux des données d'origine. Avec les séries chronologiques, vous pouvez utiliser des bootstraps de bloc; avec des données en cluster, vous amorcez l'ensemble des clusters; avec la régression hétéroskédastique, vous devez utiliser des bootstraps sauvages (ce qui est une meilleure idée que le bootstrap des résidus, même si vous lui avez adapté un modèle hétéroskédastictique). Dans le bootstrap de bloc, vous devez faire une supposition éclairée (ou, en d'autres termes, avoir de bonnes raisons de croire) que les parties distantes des séries chronologiques sont approximativement indépendantes, de sorte que toute la structure de corrélation est capturée par les 5 ou 10 adjacents. observations qui forment le bloc. Ainsi, au lieu de rééchantillonner les observations une par une, ce qui ignore totalement la structure de corrélation des séries chronologiques, vous les rééchantillonnez en blocs, en espérant que cela respecterait la structure de corrélation. Le bootstrap paramétrique auquel vous avez fait référence dit: "Plutôt que de jouer avec les données et d'assembler les nouvelles poupées à partir des pièces des anciennes, pourquoi ne pas simplement tamponner la Barbie moulée pour vous? J'ai trouvé quel type des Barbies que vous aimez, et je vous promets que je vous en ferai une aussi. " Plutôt que de jouer avec les données et d'assembler les nouvelles poupées à partir des pièces des anciennes, pourquoi ne pas simplement tamponner la Barbie moulée pour vous? J'ai trouvé le genre de Barbies que tu aimes, et je te promets de t'en faire un aussi. " Plutôt que de jouer avec les données et d'assembler les nouvelles poupées à partir des pièces des anciennes, pourquoi ne pas simplement tamponner la Barbie moulée pour vous? J'ai trouvé le genre de Barbies que tu aimes, et je te promets de t'en faire un aussi. "

Dans le cas du bootstrap paramétrique que vous avez décrit, vous devez être sacrément sûr que l'ajustement de votre modèle HMM est à peu près parfait, sinon votre bootstrap paramétrique peut conduire à des résultats incorrects (Barbies qui ne peuvent pas déplacer leurs bras). Pensez à l'exemple de régression hétéroskédastique ci-dessus; ou pensez à adapter un modèle AR (1) aux données AR (5): quoi que vous fassiez avec les données simulées paramétriquement, elles n'auront pas la structure des données d'origine.

Edit : comme Sadeghd a clarifié sa question, je peux aussi y répondre. Il existe une grande variété de procédures de bootstrap, chacune répondant à la particularité particulière de la statistique, de la taille de l'échantillon, de la dépendance ou de tout problème lié au bootstrap. Par exemple, il n'y a pas de moyen unique de traiter la dépendance. (J'ai travaillé avec des bootstraps d'enquête, il y a environ 8 procédures différentes, bien que certaines soient pour la plupart d'intérêt méthodologique plutôt que pratique; et certaines sont clairement inférieures en ce qu'elles ne sont applicables que dans des cas spéciaux, pas facilement généralisables.) Pour un une discussion générale des problèmes que vous pourriez rencontrer avec le bootstrap, voir Canty, Davison, Hinkley et Ventura (2006). Diagnostics et remèdes Bootstrap. La Revue canadienne de statistique, 34 (1), 5-27 .

— StasK
source

Juste pour ajouter un peu à votre déclaration sur le fait d'avoir moins d'informations lorsque vous avez des clusters de données dépendants (dans la section Moyenne ), je pense que cela est vrai lorsqu'il existe une corrélation intraclasse positive au sein d'un cluster, mais l'inverse est vrai lorsqu'il y a négatif corrélation intraclasse. Bien sûr, il semble que dans la plupart des applications de données réelles, les corrélations intraclasses soient positives.

— Macro

@Macro: vous avez certainement raison sur les deux points (que c'est techniquement possible et que c'est pratiquement hors de propos). La même chose sera vraie si vous estimez le niveau moyen d'un processus AR (1) avec une corrélation négative, mais encore une fois, je ne pense pas aux processus réels qui pourraient avoir cette caractéristique. Contrairement à l'autocorrélation positive qui est auto-reproductible à différentes échelles de temps, la corrélation négative doit disparaître si vous doublez la durée de votre période de référence. (Les données des cycles économiques, comme le PIB américain, ont des corrélations négatives avec un décalage d'environ trois ans.)

— StasK

Merci pour votre réponse détaillée. J'ai conclu que le rééchantillonnage paramétrique peut diminuer l'effet de la dépendance. Cependant, la distribution paramétrique doit être, dans une large mesure, représentative de la population réelle, et les modèles de dépendance doivent être régénérés lors du rééchantillonnage.

— Sadeghd