Considérez le modèle linéaire simple:
où et , et contient une colonne des constantes.
Ma question est, étant donné , et , existe-t-il une formule pour une borne supérieure non triviale sur *? (en supposant que le modèle a été estimé par OLS).
* J'ai supposé, en écrivant ceci, qu'obtenir lui-même ne serait pas possible.
EDIT1
en utilisant la solution dérivée de Stéphane Laurent (voir ci-dessous) nous pouvons obtenir une borne supérieure non triviale sur . Certaines simulations numériques (ci-dessous) montrent que cette limite est en fait assez serrée.
Stéphane Laurent a dérivé ce qui suit: où est une distribution bêta non centrale avec paramètre de non-centralité avec
Donc
où est un non central avec le paramètre et degrés de liberté. Donc, une borne supérieure non triviale pour \ mathrm {E} (R ^ 2) estχ 2 λ k E ( R 2 )
il est très serré (beaucoup plus serré que ce à quoi je m'attendais serait possible):
par exemple, en utilisant:
rho<-0.75
p<-10
n<-25*p
Su<-matrix(rho,p-1,p-1)
diag(Su)<-1
su<-1
set.seed(123)
bet<-runif(p)
la moyenne des simulations sur 1000 est . La borne supérieure théorique ci-dessus donne . La borne semble être également précise sur de nombreuses valeurs de . Vraiment étonnant!R 20.960819
0.9609081
EDIT2:
après de plus amples recherches, il semble que la qualité de l'approximation de la borne supérieure de s'améliorera à mesure que augmentera (et toutes choses égales par ailleurs, augmentera avec ).λ + p λ n