Je veux savoir si le processus décrit ci-dessous est valide / acceptable et toute justification disponible.
L'idée: les algorithmes d'apprentissage supervisé ne supposent pas de structures / distributions sous-jacentes sur les données. À la fin de la journée, ils produisent des estimations ponctuelles. J'espère quantifier en quelque sorte l'incertitude des estimations. Maintenant, le processus de construction du modèle ML est intrinsèquement aléatoire (par exemple, dans l'échantillonnage pour la validation croisée pour le réglage hyperparamétrique et dans le sous-échantillonnage dans GBM stochastique), donc un pipeline de modélisation va me donner une sortie différente pour les mêmes prédicteurs avec chaque graine différente. Mon idée (naïve) est d'exécuter ce processus encore et encore pour arriver à une distribution de la prédiction, et j'espère pouvoir faire des déclarations sur l'incertitude des prédictions.
Si cela est important, les ensembles de données avec lesquels je travaille sont généralement très petits (~ 200 lignes).
Est-ce que ça a du sens?
Pour clarifier, je n'amorce pas réellement les données au sens traditionnel (c'est-à-dire que je ne rééchantillonne pas les données). Le même ensemble de données est utilisé à chaque itération, j'exploite simplement le caractère aléatoire dans xval et GBM stochastique.