J'ai un fichier assez volumineux de 100 millions de lignes et 30 colonnes environ, sur lequel j'aimerais exécuter plusieurs régressions. J'ai un code spécialisé pour exécuter les régressions sur l'ensemble du fichier, mais ce que je voudrais faire est de tirer des échantillons aléatoires du fichier et de les exécuter dans R. La stratégie est la suivante: échantillonner au hasard N lignes du fichier sans remplacement exécuter une régression et enregistrer les coefficients d'intérêt répéter ce processus M fois avec différents échantillons pour chaque coefficient calculer les moyennes et les erreurs standard des coefficients sur M exécutions.
Je voudrais interpréter la moyenne calculée sur M exécutions comme une estimation des valeurs des coefficients calculés sur l'ensemble des données, et les erreurs standard des moyennes comme des estimations des erreurs standard des coefficients calculés sur l'ensemble des données.
Les expériences montrent qu'il s'agit d'une stratégie prometteuse, mais je ne suis pas sûr de la théorie sous-jacente. Mes estimateurs sont-ils cohérents, efficaces et non biaisés? S'ils sont cohérents, à quelle vitesse devraient-ils converger? Quels compromis de M et N sont les meilleurs?
J'apprécierais beaucoup que quelqu'un puisse m'indiquer les articles, livres, etc. avec la théorie pertinente.
Cordialement et merci beaucoup,
Joe Rickert