Je ne redériverai pas la distribution dans l'excellente réponse de @ Alecos (c'est un résultat standard, voir ici pour un autre belle discussion) mais je veux donner plus de détails sur les conséquences! Tout d'abord, à quoi ressemble la distribution nulle de pour une plage de valeurs de et ? Le graphique dans la réponse de @ Alecos est assez représentatif de ce qui se produit dans les régressions multiples pratiques, mais parfois, les informations sont plus facilement glanées à partir de cas plus petits. J'ai inclus la moyenne, le mode (là où il existe) et l'écart type. Le graphique / tableau mérite un bon globe oculaire: mieux vu en taille réelleB e t a ( k - 12 ,n - k2 )R2nknB e t a ( k - 12,n - k2)R2nk. J'aurais pu inclure moins de facettes mais le schéma aurait été moins clair; J'ai ajouté du R
code pour que les lecteurs puissent expérimenter différents sous-ensembles de et .n kk
Valeurs des paramètres de forme
Le schéma de couleurs du graphique indique si chaque paramètre de forme est inférieur à un (rouge), égal à un (bleu) ou supérieur à un (vert). Le côté gauche montre la valeur de tandis que est à droite. Depuis , sa valeur augmente dans la progression arithmétique d'une différence commune de lorsque nous nous déplaçons à droite de colonne en colonne (ajoutez un régresseur à notre modèle) tandis que pour fixe , diminue de . Le total est fixe pour chaque ligne (pour une taille d'échantillon donnée). Si au lieu de cela, nous fixonsα βαβ α = k - 12 1α = k - 122 nβ=n-k12n2 1β= n - k22 α+β=n-1122 kαβ1α + β= n - 12ket descendez dans la colonne (augmentez la taille de l'échantillon de 1), puis reste constant et augmente de . En termes de régression, est la moitié du nombre de régresseurs inclus dans le modèle et est la moitié des degrés de liberté résiduels . Pour déterminer la forme de la distribution, nous sommes particulièrement intéressés par où ou égal à un.αβ2 αβαβ12αβαβ
L'algèbre est simple pour : on a donc . Il s'agit en effet de la seule colonne du graphique à facettes qui est remplie de bleu à gauche. De même pour (la colonne est rouge à gauche) et pour (à partir de la colonne , le côté gauche est vert).α k - 1α2 =1k=3α<1k<3k=2α>1k>3k=4k - 12= 1k = 3α < 1k < 3k = 2α > 1k > 3k = 4
Pour nous avons où . Notez comment ces cas (marqués d'un côté bleu à droite) coupent une ligne diagonale à travers le tracé des facettes. Pour nous obtenons (les graphiques avec un côté gauche vert se trouvent à gauche de la ligne diagonale). Pour nous avons besoin de , ce qui n'implique que les cas les plus à droite sur mon graphique: à nous avons et la distribution est dégénérée, mais où est tracé (côté droit en rouge).β = 1 n - kβ= 12 =1k=n-2β>1k<n-2β<1k>n-2n=kβ=0n=k-1β=1n - k2= 1k = n - 2β> 1k < n - 2β< 1k > n - 2n = kβ=0n=k−12β=12
Puisque le PDF est , il est clair que si (et seulement si ) puis comme . Nous pouvons le voir dans le graphique: lorsque le côté gauche est ombré en rouge, observez le comportement à 0. De même lorsque puis comme . Regardez où le côté droit est rouge!f ( x ;α ,β ) ∝ x α - 1 ( 1 - x ) β - 1 α < 1 f ( x ) → ∞ x → 0 β < 1 f ( x ) → ∞ x → 1f(x;α,β)∝xα−1(1−x)β−1α<1f(x)→∞x→0β<1f(x)→∞x→1
Symétries
L'une des caractéristiques les plus accrocheuses du graphique est le niveau de symétrie, mais lorsque la distribution bêta est impliquée, cela ne devrait pas être surprenant!
La distribution bêta elle-même est symétrique si . Pour nous, cela se produit si qui identifie correctement les panneaux , , et . La mesure dans laquelle la distribution est symétrique sur dépend du nombre de variables régressives que nous incluons dans le modèle pour cette taille d'échantillon. Si la distribution de est parfaitement symétrique autour de 0,5; si nous incluons moins de variables que cela, cela devient de plus en plus asymétrique et la majeure partie de la masse de probabilité se rapproche deα = β n = 2 k - 1 ( k = 2 , n = 3 ) ( k = 3 , n = 5 ) ( k = 4 , n = 7 ) ( k = 5 , n = 9 ) R 2 = 0,5 k = n + 1α=βn=2k−1(k=2,n=3)(k=3,n=5)(k=4,n=7)(k=5,n=9)R2=0.52 R2R2=0R2=1kk=n+12R2R2=0; si nous incluons plus de variables, cela se rapproche de . Souvenez-vous que inclut l'ordonnée à l'origine dans son décompte et que nous travaillons sous la valeur nulle, donc les variables de régresseur devraient avoir un coefficient zéro dans le modèle correctement spécifié.R2=1k
Il existe également une symétrie évidente entre les distributions pour tout donné , c'est-à-dire n'importe quelle ligne de la grille de facettes. Par exemple, comparez avec . Qu'est-ce qui cause ça? Rappelons que la distribution de est l'image miroir de sur . Nous avions maintenant et . Considérons et nous trouvons:n ( k = 3 , n = 9 ) ( k = 7 , n = 9 ) B e t a ( α , β ) B e t a ( β , α ) x = 0,5 α k , n = k - 1n(k=3,n=9)(k=7,n=9)Beta(α,β)Beta(β,α)x=0.52 βk,n=n-kαk,n=k−122 k′=n-k+1βk,n=n−k2k′=n−k+1
α k ′ , n = ( n - k + 1 ) - 12 =n-k2 =βk,nβk′,n=n-(n-k+1)
αk′,n=(n−k+1)−12=n−k2=βk,n
2 =k-12 =αk,nβk′,n=n−(n−k+1)2=k−12=αk,n
Cela explique donc la symétrie car nous faisons varier le nombre de régresseurs dans le modèle pour une taille d'échantillon fixe. Il explique aussi les distributions elles-mêmes symétriques comme cas particulier: pour elles, donc elles sont obligées d'être symétriques avec elles-mêmes!k ′ = kk′=k
Cela nous indique quelque chose que nous n'aurions peut-être pas deviné à propos de la régression multiple: pour une taille d'échantillon donnée , et en supposant qu'aucun régresseur n'ait une véritable relation avec , le pour un modèle utilisant régresseurs plus une interception a la même distribution comme fait pour un modèle avec degrés de liberté résiduels restants .n Y R 2 k - 1 1 - R 2 k - 1nYR2k−11−R2k−1
Distributions spéciales
Lorsque nous avons , ce qui n'est pas un paramètre valide. Cependant, lorsque la distribution devient dégénérée avec un pic tel que . Cela correspond à ce que nous savons d'un modèle avec autant de paramètres que de points de données - il atteint un ajustement parfait. Je n'ai pas dessiné la distribution dégénérée sur mon graphique mais j'ai inclus la moyenne, le mode et l'écart type.k = n β = 0 β → 0 P ( R 2 = 1k=nβ=0β→0 ) = 1P(R2=1)=1
Lorsque et nous obtenons qui est la distribution d'arc sinus . Ceci est symétrique (depuis ) et bimodal (0 et 1). Puisque c'est le seul cas où à la fois et (marqué en rouge des deux côtés), c'est notre seule distribution qui va à l'infini aux deux extrémités du support.k = 2 n = 3 B e tk=2n=3 a ( 12 ,12 )α=βα<1β<Beta(12,12)α=βα<1 1β<1
La distribution est la seule distribution Beta à être rectangulaire (uniforme) . Toutes les valeurs de de 0 à 1 sont également probables. La seule combinaison de et pour laquelle se produit est et (marqué en bleu des deux côtés).B e t a ( 1 ,1 ) R 2 k n α = β = 1 k = 3 nBeta(1,1)R2knα=β=1k=3 = 5n=5
Les cas spéciaux précédents ont une applicabilité limitée mais le cas et (vert à gauche, bleu à droite) est important. Maintenant nous avons donc un distribution de loi de puissance sur [0, 1]. Bien sûr, il est peu probable que nous effectuions une régression avec et , ce qui est le cas lorsque cette situation se produit. Mais par l'argument de symétrie précédent, ou une algèbre triviale sur le PDF, lorsque et , qui est la procédure fréquente de régression multiple avec deux régresseurs et une interception sur une taille d'échantillon non triviale,α > 1 β = 1α>1β=1 f ( x ;α ,β ) ∝ x α - 1 ( 1 - x ) β - 1 = x α - 1 k = n - 2 k > 3 k = 3 n > 5 R 2 H 0 α = 1 β > 1f(x;α,β)∝xα−1(1−x)β−1=xα−1k=n−2k>3k=3n>5R2suivra une distribution de loi de puissance réfléchie sur [0, 1] sous . H0Cela correspond à et il est donc marqué bleu à gauche, vert à droite.α=1β>1
Vous avez peut-être également remarqué les distributions triangulaires en et sa réflexion . Nous pouvons reconnaître à partir de leurs et que ce ne sont que des cas particuliers de la loi de puissance et des distributions de loi de puissance reflétées où la puissance est .( k = 5 , n = 7 ) ( k = 3 , n = 7 ) α β 2 - 1 = 1(k=5,n=7)(k=3,n=7)αβ2−1=1
Mode
Si et , tous verts dans le tracé, est concave avec et la distribution bêta a un mode unique . En les mettant en termes de et , la condition devient et tandis que le mode est .α > 1 β > 1α>1β>1 f ( x ;α ,β ) f ( 0 ) = f ( 1 ) = 0 αf(x;α,β)f(0)=f(1)=0 - 1α + β - 2 knk>3n>k+2k-3α−1α+β−2knk>3n>k+2n - 5k−3n−5
Tous les autres cas ont été traités ci-dessus. Si nous relâchons l'inégalité pour permettre , alors nous incluons les distributions de loi de puissance (vert-bleu) avec et (de manière équivalente, ). Ces cas ont clairement le mode 1, qui correspond en fait à la formule précédente puisque . Si à la place nous autorisions mais demandons toujours , nous trouverions les distributions de loi de puissance réfléchies (bleu-vert) avec et . Leur mode est 0, ce qui correspond à . Cependant, si nous relâchons les deux inégalités simultanément pour permettre àβ = 1 k = n - 2 k > 3 n > 5 ( n - 2 ) - 3β=1k=n−2k>3n>5n - 5 =1α=1β>1k=3n>53-3(n−2)−3n−5=1α=1β>1k=3n>5n - 5 =0α=β=1k=3n=533−3n−5=0α=β=1, nous trouverions la distribution uniforme (tout bleu) avec et , qui n'a pas de mode unique. De plus, la formule précédente ne peut pas être appliquée dans ce cas, car elle retournerait la forme indéterminée .k=3n=5 - 35 - 5 = 003−35−5=00
Quand on obtient une distribution dégénérée avec le mode 1. Quand (en termes de régression, donc il n'y a qu'un seul degré de liberté résiduel) alors comme , et quand (en termes de régression, donc un modèle linéaire simple avec interception et un régresseur) alors comme . Ce seraient des modes uniques sauf dans le cas inhabituel où et (ajustement d'un modèle linéaire simple à trois points) qui est bimodal à 0 et 1. n = k β < 1 n = k - 1 f ( x ) → ∞ x → 1 α < 1 k = 2 f ( x ) → ∞ x → 0 k = 2 n = 3n=kβ<1n=k−1f(x)→∞x→1α<1k=2f(x)→∞x→0k=2n=3
Signifier
La question posée sur le mode, mais la moyenne de sous le nul est également intéressante - elle a la forme remarquablement simple . Pour une taille d'échantillon fixe, la progression arithmétique augmente à mesure que davantage de régresseurs sont ajoutés au modèle, jusqu'à ce que la valeur moyenne soit 1 lorsque . La moyenne d'une distribution bêta est donc une telle progression arithmétique était inévitable de notre observation précédente que, pour fixe , la somme est constante mais augmente de 0,5 pour chaque régresseur ajouté au modèle.R 2 kR2 - 1n - 1 k=nk−1n−1k=n αα + β nα+βααα+βnα+βα
αα + β =(k-1)/ 2( k - 1 ) / 2 + ( n - k ) / 2 =k- 1n - 1
αα+β=(k−1)/2(k−1)/2+(n−k)/2=k−1n−1
Code pour les parcelles
require(grid)
require(dplyr)
nlist <- 3:9 #change here which n to plot
klist <- 2:8 #change here which k to plot
totaln <- length(nlist)
totalk <- length(klist)
df <- data.frame(
x = rep(seq(0, 1, length.out = 100), times = totaln * totalk),
k = rep(klist, times = totaln, each = 100),
n = rep(nlist, each = totalk * 100)
)
df <- mutate(df,
kname = paste("k =", k),
nname = paste("n =", n),
a = (k-1)/2,
b = (n-k)/2,
density = dbeta(x, (k-1)/2, (n-k)/2),
groupcol = ifelse(x < 0.5,
ifelse(a < 1, "below 1", ifelse(a ==1, "equals 1", "more than 1")),
ifelse(b < 1, "below 1", ifelse(b ==1, "equals 1", "more than 1")))
)
g <- ggplot(df, aes(x, density)) +
geom_line(size=0.8) + geom_area(aes(group=groupcol, fill=groupcol)) +
scale_fill_brewer(palette="Set1") +
facet_grid(nname ~ kname) +
ylab("probability density") + theme_bw() +
labs(x = expression(R^{2}), fill = expression(alpha~(left)~beta~(right))) +
theme(panel.margin = unit(0.6, "lines"),
legend.title=element_text(size=20),
legend.text=element_text(size=20),
legend.background = element_rect(colour = "black"),
legend.position = c(1, 1), legend.justification = c(1, 1))
df2 <- data.frame(
k = rep(klist, times = totaln),
n = rep(nlist, each = totalk),
x = 0.5,
ymean = 7.5,
ymode = 5,
ysd = 2.5
)
df2 <- mutate(df2,
kname = paste("k =", k),
nname = paste("n =", n),
a = (k-1)/2,
b = (n-k)/2,
meanR2 = ifelse(k > n, NaN, a/(a+b)),
modeR2 = ifelse((a>1 & b>=1) | (a>=1 & b>1), (a-1)/(a+b-2),
ifelse(a<1 & b>=1 & n>=k, 0, ifelse(a>=1 & b<1 & n>=k, 1, NaN))),
sdR2 = ifelse(k > n, NaN, sqrt(a*b/((a+b)^2 * (a+b+1)))),
meantext = ifelse(is.nan(meanR2), "", paste("Mean =", round(meanR2,3))),
modetext = ifelse(is.nan(modeR2), "", paste("Mode =", round(modeR2,3))),
sdtext = ifelse(is.nan(sdR2), "", paste("SD =", round(sdR2,3)))
)
g <- g + geom_text(data=df2, aes(x, ymean, label=meantext)) +
geom_text(data=df2, aes(x, ymode, label=modetext)) +
geom_text(data=df2, aes(x, ysd, label=sdtext))
print(g)