Pour mettre ma question en contexte, je suis physicien mais avec une exposition limitée aux statistiques et ce que j'ai appris à ce sujet remonte à plus de 30 ans.
J'essaie d'en savoir plus sur l'amorçage de blocs car cette technique peut être appropriée pour résoudre un problème sur lequel je travaille. Je peux trouver beaucoup d'articles / livres / informations sur les mathématiques du bootstrap de blocs, mais je voudrais d'abord trouver une description générique du processus de bootstrap de blocs avant de «s'aventurer» dans des problèmes tels que le bootstrap de blocs, le bootstrap de blocs circulaires, le bootstrap de blocs stationnaires , longueurs de blocs, taille d'échantillonnage, etc.
J'ai suréchantillonné des données corrélées, 5 variables (colonnes) par 10000 observations (lignes) que je veux réduire à environ 100 lignes de données. Les données sont une série temporelle, mais pas continue et peuvent également contenir des données de différents emplacements, ce qui signifie que vous pouvez avoir des données différentes en même temps (si ces dernières sont un problème pour le démarrage de bloc, je pourrais supprimer les données `` dupliquées '' à l'heure). L'amorçage de blocs permettrait de répliquer la corrélation des données.
Le but ultime est de réduire l'ensemble de données à ~ 100 lignes de données de sorte que les fichiers pdf et cdf de l'ensemble de données complet et de l'ensemble de données réduit soient les mêmes (dans une plage d'erreur minimale encore à définir) pour les 5 variables.
Question: 1) Est-ce que le bootstrap de blocs pourra faire cela? 2) Quel est le processus étape par étape que cela se fait? Je ne m'attends pas à ce que quelqu'un écrive le processus complet en détail ici, mais peut-être que quelqu'un a mis une vidéo youtube ou un `` bootstrap pour les nuls '' là-bas que je pourrais commencer.
J'ai examiné des questions similaires sur l'amorçage de blocs ici et il y en a une sur "Ressources pour en savoir plus sur l'amorçage de blocs dans l'analyse de séries chronologiques", mais les références dans les réponses supposent une littératie statistique que je dois encore maîtriser.