J'utilise des modèles de régression LOESS en R, et je veux comparer les sorties de 12 modèles différents avec des tailles d'échantillons variables. Je peux décrire les modèles réels plus en détail si cela aide à répondre à la question.
Voici les tailles d'échantillon:
Fastballs vs RHH 2008-09: 2002
Fastballs vs LHH 2008-09: 2209
Fastballs vs RHH 2010: 527
Fastballs vs LHH 2010: 449
Changeups vs RHH 2008-09: 365
Changeups vs LHH 2008-09: 824
Changeups vs RHH 2010: 201
Changeups vs LHH 2010: 330
Curveballs vs RHH 2008-09: 488
Curveballs vs LHH 2008-09: 483
Curveballs vs RHH 2010: 213
Curveballs vs LHH 2010: 162
Le modèle de régression LOESS est un ajustement de surface, où l'emplacement X et l'emplacement Y de chaque terrain de baseball sont utilisés pour prédire sw, la probabilité de frappe oscillante. Cependant, je voudrais comparer entre les 12 de ces modèles, mais la définition de la même plage (c'est-à-dire la plage = 0,5) produira des résultats différents car il existe une si large gamme de tailles d'échantillon.
Ma question de base est de savoir comment déterminez la portée de votre modèle? Une plage plus élevée lisse davantage l'ajustement, tandis qu'une plage inférieure capture plus de tendances mais introduit un bruit statistique s'il y a trop peu de données. J'utilise une plage plus élevée pour les plus petits échantillons et une plage plus faible pour les plus grands échantillons.
Que devrais-je faire? Quelle est la bonne règle à suivre lors de la définition de l'intervalle pour les modèles de régression LOESS dans R? Merci d'avance!