Je souhaite obtenir une estimation non biaisée de dans une régression linéaire multiple.
À la réflexion, je peux penser à deux valeurs différentes qu'une estimation non biaisée de pourrait essayer de faire correspondre.
- Hors échantillon : le carré r qui serait obtenu si l'équation de régression obtenue à partir de l'échantillon (c'est-à-dire ) était appliquée à une quantité infinie de données externes à l'échantillon mais à partir des mêmes données processus de génération.
- Population : Le carré r qui serait obtenu si un échantillon infini était obtenu et le modèle ajusté à cet échantillon infini (c.-à-d. ) ou alternativement juste le carré R impliqué par le processus de génération de données connu.
Je comprends que ajusté est conçu pour compenser le sur-ajustement observé dans l'échantillon . Néanmoins, il n'est pas clair si ajusté est réellement une estimation sans biais de , et s'il s'agit d'une estimation sans biais, laquelle des deux définitions de ci-dessus il vise à estimer.
Ainsi, mes questions:
- Qu'est-ce qu'une estimation impartiale de ce que j'appelle ci-dessus sur l'échantillon ?
- Qu'est-ce qu'une estimation impartiale de ce que j'appelle au-dessus de la population ?
- Y a-t-il des références qui fournissent une simulation ou une autre preuve de l'impartialité?