Block bootstrap pour un novice

Pour mettre ma question en contexte, je suis physicien mais avec une exposition limitée aux statistiques et ce que j'ai appris à ce sujet remonte à plus de 30 ans.

J'essaie d'en savoir plus sur l'amorçage de blocs car cette technique peut être appropriée pour résoudre un problème sur lequel je travaille. Je peux trouver beaucoup d'articles / livres / informations sur les mathématiques du bootstrap de blocs, mais je voudrais d'abord trouver une description générique du processus de bootstrap de blocs avant de «s'aventurer» dans des problèmes tels que le bootstrap de blocs, le bootstrap de blocs circulaires, le bootstrap de blocs stationnaires , longueurs de blocs, taille d'échantillonnage, etc.

J'ai suréchantillonné des données corrélées, 5 variables (colonnes) par 10000 observations (lignes) que je veux réduire à environ 100 lignes de données. Les données sont une série temporelle, mais pas continue et peuvent également contenir des données de différents emplacements, ce qui signifie que vous pouvez avoir des données différentes en même temps (si ces dernières sont un problème pour le démarrage de bloc, je pourrais supprimer les données `` dupliquées '' à l'heure). L'amorçage de blocs permettrait de répliquer la corrélation des données.

Le but ultime est de réduire l'ensemble de données à ~ 100 lignes de données de sorte que les fichiers pdf et cdf de l'ensemble de données complet et de l'ensemble de données réduit soient les mêmes (dans une plage d'erreur minimale encore à définir) pour les 5 variables.

Question: 1) Est-ce que le bootstrap de blocs pourra faire cela? 2) Quel est le processus étape par étape que cela se fait? Je ne m'attends pas à ce que quelqu'un écrive le processus complet en détail ici, mais peut-être que quelqu'un a mis une vidéo youtube ou un `` bootstrap pour les nuls '' là-bas que je pourrais commencer.

J'ai examiné des questions similaires sur l'amorçage de blocs ici et il y en a une sur "Ressources pour en savoir plus sur l'amorçage de blocs dans l'analyse de séries chronologiques", mais les références dans les réponses supposent une littératie statistique que je dois encore maîtriser.

time-series bootstrap

— Frank Drost
source

Et cette introduction ? Il présente une introduction au bootstrap puis au block bootstrap.

— David G Williams

Le rééchantillonnage sans modèle des séries chronologiques est réalisé par rééchantillonnage par blocs, également appelé amorçage par blocs, qui peut être implémenté à l'aide de la fonction tsboot dans le package de démarrage de R. L'idée est de diviser la série en blocs d'observations consécutives de longueur à peu près égale, de rééchantillonner le bloc avec remplacement, puis de coller les blocs ensemble. Par exemple, si la série chronologique est de longueur 200 et que l'on utilise 10 blocs de longueur 20, alors les blocs sont les 20 premières observations, les 20 suivantes, etc. Un rééchantillonnage possible est le quatrième bloc (observation 61 à 80), puis le dernier bloc (observation 181 à 200), puis le deuxième bloc (observation 21 à 40), puis le quatrième bloc à nouveau, et ainsi de suite jusqu'à ce qu'il y ait 10 blocs dans le rééchantillonnage. Comment démarrez-vous avec des données de séries chronologiques?

— economia
source

Ce que l'économie a expliqué à propos du boostrapping est correct, mais notez que l'échantillon bootstrap n'est pas utilisé pour réduire un ensemble de données à un ensemble de données plus petit avec la même distribution sous-jacente. (dont vous avez dit que c'était votre objectif). Le bootstrap est utilisé pour tester une hypothèse en créant l'échantillon bootstrapé puis en voyant où se situe la statistique (celle qui est testée) par rapport à la distribution empirique de l'échantillon bootstrapé. Ainsi, la réduction d'un ensemble de données à un ensemble de données plus petit n'est pas l'objectif du bstrapping. Il est utilisé pour les tests d'hypothèse d'une manière sans modèle.

— mlofton