Quelle est la distribution de en régression linéaire sous l'hypothèse nulle? Pourquoi son mode n'est-il pas nul lorsque ?


26

Quelle est la distribution du coefficient de détermination, ou R au carré, , en régression multiple univariée linéaire sous l'hypothèse nulle ?R 2 R2H 0 : β = 0H0:β=0

Comment cela dépend-il du nombre de prédicteurs et du nombre d'échantillons ? Existe-t-il une expression de forme fermée pour le mode de cette distribution?k kn > kn>k

En particulier, j'ai le sentiment que pour la régression simple (avec un prédicteur ) cette distribution a un mode à zéro, mais pour une régression multiple, le mode est à une valeur positive non nulle. Si cela est vrai, existe-t-il une explication intuitive de cette "transition de phase"?Xx


Mise à jour

Comme l'a montré @Alecos ci-dessous, la distribution culmine en effet à zéro lorsque et k = 3 et non à zéro lorsque k> 3 . Je pense qu'il devrait y avoir une vision géométrique de cette transition de phase. Considérons la vue géométrique d'OLS: \ mathbf y est un vecteur dans \ mathbb R ^ n , \ mathbf X y définit un sous-espace k- dimensionnel. OLS revient à projeter \ mathbf y sur ce sous-espace, et R ^ 2 est le cosinus carré de l'angle entre \ mathbf y et sa projection \ hat {\ mathbf y} .k = 2k=2k = 3 k=3k > 3 k>3yyR n RnXX kk y yR 2 R2y yyy^

Maintenant, d'après la réponse de @ Alecos, il s'ensuit que si tous les vecteurs sont aléatoires, alors la distribution de probabilité de cet angle atteindra un pic à 90 90 pour k = 2k=2 et k = 3k=3 , mais aura un mode à une autre valeur < 90 <90 pour k > 3k>3 . Pourquoi?!


Mise à jour 2: J'accepte la réponse de @ Alecos, mais j'ai toujours le sentiment que je manque ici des informations importantes. Si quelqu'un suggère un autre point de vue (géométrique ou non) sur ce phénomène qui le rendrait "évident", je serai heureux d'offrir une prime.


1
Êtes-vous prêt à assumer la normalité des erreurs?
Dimitriy V. Masterov

1
Oui, je suppose qu'il faut le supposer pour rendre cette question responsable (?).
amibe dit Réintégrer Monica


1
@Khashaa: en fait, je dois admettre que j'ai trouvé cette page blogspot avant de poster ma question ici. Honnêtement, je voulais quand même avoir une discussion sur ce phénomène sur notre forum, alors j'ai fait semblant de ne pas voir ça.
amibe dit Réintégrer Monica

Réponses:


33

Pour l'hypothèse spécifique (que tous les coefficients du régresseur sont nuls, sans compter le terme constant, qui n'est pas examiné dans ce test) et sous normalité, nous le savons (voir par exemple Maddala 2001, p. 155, mais notez que là, compte la régresseurs sans le terme constant, de sorte que l'expression semble un peu différente) que la statistiquekk

F = n - kk - 1 R21 - R 2 F(k-1,n-k)

F=nkk1R21R2
est distribué comme une variable aléatoire centrale .F(k1,nk)

Notez que bien que nous ne testions pas le terme constant, compte également.kk

Faire bouger les choses,

( k - 1 ) F - ( k - 1 ) F R 2 = ( n - k ) R 2( k - 1 ) F = R 2 [ ( n - k ) + ( k - 1 ) F ]

(k1)F(k1)FR2=(nk)R2(k1)F=R2[(nk)+(k1)F]

R 2 = ( k - 1 ) F( n - k ) + ( k - 1 ) F

R2=(k1)F(nk)+(k1)F

Mais le côté droit est distribué en tant que distribution bêta , en particulier

R 2B e t a ( k - 12 ,n-k2 )

R2Beta(k12,nk2)

Le mode de cette distribution est

mode R 2 = k - 12 -1k - 12 +n-k2 -2=k-3n - 5

modeR2=k121k12+nk22=k3n5

MODE FINI ET UNIQUE
De la relation ci-dessus, nous pouvons déduire que pour que la distribution ait un mode unique et fini, nous devons avoir

k 3 , n > 5

k3,n>5

Cela est conforme à l'exigence générale d'une distribution bêta, qui est

{ α > 1 , β 1 } ,OU{ α 1 , β > 1 }

{α>1,β1},OR{α1,β>1}

comme on peut déduire de ce fil de CV ou lire ici .
Notez que si , nous obtenons la distribution uniforme, donc tous les points de densité sont des modes (finis mais pas uniques). Ce qui crée la question: pourquoi, si , est distribué comme ?{ α = 1 , β = 1 } k = 3 , n = 5 R{α=1,β=1}k=3,n=5 2 U ( 0 , 1 )R2U(0,1)

IMPLICATIONS
Supposons que vous ayez régresseurs (y compris la constante) et observations. Assez belle régression, pas de sur-ajustement. ensuitek = 5 n = 99k=5n=99

R 2 | β = 0B e t a ( 2 , 47 ) , mode R 2 = 1470,021

R2β=0Beta(2,47),modeR2=1470.021

et graphique de densité

entrez la description de l'image ici

Intuition please: c'est la distribution de sous l'hypothèse qu'aucun régresseur n'appartient réellement à la régression. Ainsi, a) la distribution est indépendante des régresseurs, b) à mesure que la taille de l'échantillon augmente, sa distribution est concentrée vers zéro, car l'augmentation de l'information submerge la variabilité des petits échantillons qui peut produire un certain "ajustement", mais aussi c) comme le nombre de régresseurs non pertinents augmente pour une taille d'échantillon donnée, la distribution se concentre vers , et nous avons le phénomène de "faux ajustement". R 2 1R21

Mais aussi, notez à quel point il est "facile" de rejeter l'hypothèse nulle: dans l'exemple particulier, pour probabilité cumulée a déjà atteint , donc un obtenu rejettera le nul de "régression insignifiante" "au niveau de signification %.R 2 = 0,13 0,99R2=0.130.99 R 2 > 0,13 1R2>0.131

ADDENDA
Pour répondre au nouveau problème concernant le mode de distribution de , je peux proposer la ligne de pensée suivante (non géométrique), qui la relie au phénomène de "fit parasite": lorsque nous exécutons des moindres carrés sur une donnée ensemble, nous résolvons essentiellement un système de équations linéaires avec inconnues (la seule différence avec les mathématiques du secondaire est qu'à l'époque nous appelions "coefficients connus" ce que dans la régression linéaire nous appelons "variables / régresseurs", "inconnu x" ce nous appelons maintenant «coefficients inconnus» et «termes constants» ce que nous appelons «variable dépendante»). Tant queR 2 n k k < n 1 - R 2 k = n k R 2 1 k nR2nkk<nle système est sur-identifié et il n'y a pas de solution exacte, seulement approximative, et la différence apparaît comme une "variance inexpliquée de la variable dépendante", qui est capturée par . Si le système a une solution exacte (en supposant une indépendance linéaire). Entre les deux, à mesure que nous augmentons le nombre de , nous réduisons le "degré de suridentification" du système et nous "nous dirigeons" vers la solution exacte unique. Sous cette vue, il est logique pourquoi augmente faussement avec l'ajout de régressions non pertinentes, et par conséquent, pourquoi son mode se déplace progressivement vers , car augmente pour donné .1R2k=nkR21kn


1
C'est mathématique. Pour le premier paramètre de la distribution bêta (le " " en notation standard) devient plus petit que l'unité. Dans ce cas, la distribution bêta n'a pas de mode fini, jouez avec keisan.casio.com/exec/system/1180573226 pour voir comment les formes changent. k = 2 αk=2α
Alecos Papadopoulos

1
@Alecos Excellente réponse! (+1) Puis-je fortement suggérer d'ajouter à votre réponse l'exigence d'existence du mode? Ceci est généralement indiqué comme et mais plus subtilement, c'est ok si l'égalité se maintient dans l'un des deux ... Je pense que pour nos besoins, cela devient et et au moins une de ces inégalités est stricte . α > 1 β > 1 k 3 n k + 2α>1β>1k3 nk+2
Silverfish

2
@Khashaa Sauf si la théorie l'exige, je n'exclue jamais l'ordonnée à l'origine de la régression -il s'agit du niveau moyen de la variable dépendante, des régresseurs ou pas de régresseurs (et ce niveau est généralement positif, il s'agirait donc d'une erreur de spécification omettez-le). Mais je l'exclus toujours du test F de la régression, car ce qui m'importe ce n'est pas de savoir si la variable dépendante a une moyenne inconditionnelle non nulle, mais si les régresseurs ont un pouvoir explicatif quant aux écarts par rapport à cette moyenne.
Alecos Papadopoulos

1
+1! Y a-t-il des résultats pour la distribution de pour non nul ? R 2 β jR2βj
Christoph Hanck


18

Je ne redériverai pas la distribution dans l'excellente réponse de @ Alecos (c'est un résultat standard, voir ici pour un autre belle discussion) mais je veux donner plus de détails sur les conséquences! Tout d'abord, à quoi ressemble la distribution nulle de pour une plage de valeurs de et ? Le graphique dans la réponse de @ Alecos est assez représentatif de ce qui se produit dans les régressions multiples pratiques, mais parfois, les informations sont plus facilement glanées à partir de cas plus petits. J'ai inclus la moyenne, le mode (là où il existe) et l'écart type. Le graphique / tableau mérite un bon globe oculaire: mieux vu en taille réelleB e t a ( k - 12 ,n - k2 )R2nknB e t a ( k - 12,n - k2)R2nk. J'aurais pu inclure moins de facettes mais le schéma aurait été moins clair; J'ai ajouté du Rcode pour que les lecteurs puissent expérimenter différents sous-ensembles de et .n kk

Distribution de R2 pour les petits échantillons

Valeurs des paramètres de forme

Le schéma de couleurs du graphique indique si chaque paramètre de forme est inférieur à un (rouge), égal à un (bleu) ou supérieur à un (vert). Le côté gauche montre la valeur de tandis que est à droite. Depuis , sa valeur augmente dans la progression arithmétique d'une différence commune de lorsque nous nous déplaçons à droite de colonne en colonne (ajoutez un régresseur à notre modèle) tandis que pour fixe , diminue de . Le total est fixe pour chaque ligne (pour une taille d'échantillon donnée). Si au lieu de cela, nous fixonsα βαβ α = k - 12 1α = k - 122 nβ=n-k12n2 1β= n - k22 α+β=n-1122 kαβ1α + β= n - 12ket descendez dans la colonne (augmentez la taille de l'échantillon de 1), puis reste constant et augmente de . En termes de régression, est la moitié du nombre de régresseurs inclus dans le modèle et est la moitié des degrés de liberté résiduels . Pour déterminer la forme de la distribution, nous sommes particulièrement intéressés par où ou égal à un.αβ2 αβαβ12αβαβ

L'algèbre est simple pour : on a donc . Il s'agit en effet de la seule colonne du graphique à facettes qui est remplie de bleu à gauche. De même pour (la colonne est rouge à gauche) et pour (à partir de la colonne , le côté gauche est vert).α k - 1α2 =1k=3α<1k<3k=2α>1k>3k=4k - 12= 1k = 3α < 1k < 3k = 2α > 1k > 3k = 4

Pour nous avons où . Notez comment ces cas (marqués d'un côté bleu à droite) coupent une ligne diagonale à travers le tracé des facettes. Pour nous obtenons (les graphiques avec un côté gauche vert se trouvent à gauche de la ligne diagonale). Pour nous avons besoin de , ce qui n'implique que les cas les plus à droite sur mon graphique: à nous avons et la distribution est dégénérée, mais où est tracé (côté droit en rouge).β = 1 n - kβ= 12 =1k=n-2β>1k<n-2β<1k>n-2n=kβ=0n=k-1β=1n - k2= 1k = n - 2β> 1k < n - 2β< 1k > n - 2n = kβ=0n=k12β=12

Puisque le PDF est , il est clair que si (et seulement si ) puis comme . Nous pouvons le voir dans le graphique: lorsque le côté gauche est ombré en rouge, observez le comportement à 0. De même lorsque puis comme . Regardez où le côté droit est rouge!f ( x ;α ,β ) x α - 1 ( 1 - x ) β - 1 α < 1 f ( x ) x 0 β < 1 f ( x ) x 1f(x;α,β)xα1(1x)β1α<1f(x)x0β<1f(x)x1

Symétries

L'une des caractéristiques les plus accrocheuses du graphique est le niveau de symétrie, mais lorsque la distribution bêta est impliquée, cela ne devrait pas être surprenant!

La distribution bêta elle-même est symétrique si . Pour nous, cela se produit si qui identifie correctement les panneaux , , et . La mesure dans laquelle la distribution est symétrique sur dépend du nombre de variables régressives que nous incluons dans le modèle pour cette taille d'échantillon. Si la distribution de est parfaitement symétrique autour de 0,5; si nous incluons moins de variables que cela, cela devient de plus en plus asymétrique et la majeure partie de la masse de probabilité se rapproche deα = β n = 2 k - 1 ( k = 2 , n = 3 ) ( k = 3 , n = 5 ) ( k = 4 , n = 7 ) ( k = 5 , n = 9 ) R 2 = 0,5 k = n + 1α=βn=2k1(k=2,n=3)(k=3,n=5)(k=4,n=7)(k=5,n=9)R2=0.52 R2R2=0R2=1kk=n+12R2R2=0; si nous incluons plus de variables, cela se rapproche de . Souvenez-vous que inclut l'ordonnée à l'origine dans son décompte et que nous travaillons sous la valeur nulle, donc les variables de régresseur devraient avoir un coefficient zéro dans le modèle correctement spécifié.R2=1k

Il existe également une symétrie évidente entre les distributions pour tout donné , c'est-à-dire n'importe quelle ligne de la grille de facettes. Par exemple, comparez avec . Qu'est-ce qui cause ça? Rappelons que la distribution de est l'image miroir de sur . Nous avions maintenant et . Considérons et nous trouvons:n ( k = 3 , n = 9 ) ( k = 7 , n = 9 ) B e t a ( α , β ) B e t a ( β , α ) x = 0,5 α k , n = k - 1n(k=3,n=9)(k=7,n=9)Beta(α,β)Beta(β,α)x=0.52 βk,n=n-kαk,n=k122 k=n-k+1βk,n=nk2k=nk+1

α k , n = ( n - k + 1 ) - 12 =n-k2 =βk,nβk,n=n-(n-k+1)

αk,n=(nk+1)12=nk2=βk,n
2 =k-12 =αk,n
βk,n=n(nk+1)2=k12=αk,n

Cela explique donc la symétrie car nous faisons varier le nombre de régresseurs dans le modèle pour une taille d'échantillon fixe. Il explique aussi les distributions elles-mêmes symétriques comme cas particulier: pour elles, donc elles sont obligées d'être symétriques avec elles-mêmes!k = kk=k

Cela nous indique quelque chose que nous n'aurions peut-être pas deviné à propos de la régression multiple: pour une taille d'échantillon donnée , et en supposant qu'aucun régresseur n'ait une véritable relation avec , le pour un modèle utilisant régresseurs plus une interception a la même distribution comme fait pour un modèle avec degrés de liberté résiduels restants .n Y R 2 k - 1 1 - R 2 k - 1nYR2k11R2k1

Distributions spéciales

Lorsque nous avons , ce qui n'est pas un paramètre valide. Cependant, lorsque la distribution devient dégénérée avec un pic tel que . Cela correspond à ce que nous savons d'un modèle avec autant de paramètres que de points de données - il atteint un ajustement parfait. Je n'ai pas dessiné la distribution dégénérée sur mon graphique mais j'ai inclus la moyenne, le mode et l'écart type.k = n β = 0 β 0 P ( R 2 = 1k=nβ=0β0 ) = 1P(R2=1)=1

Lorsque et nous obtenons qui est la distribution d'arc sinus . Ceci est symétrique (depuis ) et bimodal (0 et 1). Puisque c'est le seul cas où à la fois et (marqué en rouge des deux côtés), c'est notre seule distribution qui va à l'infini aux deux extrémités du support.k = 2 n = 3 B e tk=2n=3 a ( 12 ,12 )α=βα<1β<Beta(12,12)α=βα<1 1β<1

La distribution est la seule distribution Beta à être rectangulaire (uniforme) . Toutes les valeurs de de 0 à 1 sont également probables. La seule combinaison de et pour laquelle se produit est et (marqué en bleu des deux côtés).B e t a ( 1 ,1 ) R 2 k n α = β = 1 k = 3 nBeta(1,1)R2knα=β=1k=3 = 5n=5

Les cas spéciaux précédents ont une applicabilité limitée mais le cas et (vert à gauche, bleu à droite) est important. Maintenant nous avons donc un distribution de loi de puissance sur [0, 1]. Bien sûr, il est peu probable que nous effectuions une régression avec et , ce qui est le cas lorsque cette situation se produit. Mais par l'argument de symétrie précédent, ou une algèbre triviale sur le PDF, lorsque et , qui est la procédure fréquente de régression multiple avec deux régresseurs et une interception sur une taille d'échantillon non triviale,α > 1 β = 1α>1β=1 f ( x ;α ,β ) x α - 1 ( 1 - x ) β - 1 = x α - 1 k = n - 2 k > 3 k = 3 n > 5 R 2 H 0 α = 1 β > 1f(x;α,β)xα1(1x)β1=xα1k=n2k>3k=3n>5R2suivra une distribution de loi de puissance réfléchie sur [0, 1] sous . H0Cela correspond à et il est donc marqué bleu à gauche, vert à droite.α=1β>1

Vous avez peut-être également remarqué les distributions triangulaires en et sa réflexion . Nous pouvons reconnaître à partir de leurs et que ce ne sont que des cas particuliers de la loi de puissance et des distributions de loi de puissance reflétées où la puissance est .( k = 5 , n = 7 ) ( k = 3 , n = 7 ) α β 2 - 1 = 1(k=5,n=7)(k=3,n=7)αβ21=1

Mode

Si et , tous verts dans le tracé, est concave avec et la distribution bêta a un mode unique . En les mettant en termes de et , la condition devient et tandis que le mode est .α > 1 β > 1α>1β>1 f ( x ;α ,β ) f ( 0 ) = f ( 1 ) = 0 αf(x;α,β)f(0)=f(1)=0 - 1α + β - 2 knk>3n>k+2k-3α1α+β2knk>3n>k+2n - 5k3n5

Tous les autres cas ont été traités ci-dessus. Si nous relâchons l'inégalité pour permettre , alors nous incluons les distributions de loi de puissance (vert-bleu) avec et (de manière équivalente, ). Ces cas ont clairement le mode 1, qui correspond en fait à la formule précédente puisque . Si à la place nous autorisions mais demandons toujours , nous trouverions les distributions de loi de puissance réfléchies (bleu-vert) avec et . Leur mode est 0, ce qui correspond à . Cependant, si nous relâchons les deux inégalités simultanément pour permettre àβ = 1 k = n - 2 k > 3 n > 5 ( n - 2 ) - 3β=1k=n2k>3n>5n - 5 =1α=1β>1k=3n>53-3(n2)3n5=1α=1β>1k=3n>5n - 5 =0α=β=1k=3n=5333n5=0α=β=1, nous trouverions la distribution uniforme (tout bleu) avec et , qui n'a pas de mode unique. De plus, la formule précédente ne peut pas être appliquée dans ce cas, car elle retournerait la forme indéterminée .k=3n=5 - 35 - 5 = 003355=00

Quand on obtient une distribution dégénérée avec le mode 1. Quand (en termes de régression, donc il n'y a qu'un seul degré de liberté résiduel) alors comme , et quand (en termes de régression, donc un modèle linéaire simple avec interception et un régresseur) alors comme . Ce seraient des modes uniques sauf dans le cas inhabituel où et (ajustement d'un modèle linéaire simple à trois points) qui est bimodal à 0 et 1. n = k β < 1 n = k - 1 f ( x ) x 1 α < 1 k = 2 f ( x ) x 0 k = 2 n = 3n=kβ<1n=k1f(x)x1α<1k=2f(x)x0k=2n=3

Signifier

La question posée sur le mode, mais la moyenne de sous le nul est également intéressante - elle a la forme remarquablement simple . Pour une taille d'échantillon fixe, la progression arithmétique augmente à mesure que davantage de régresseurs sont ajoutés au modèle, jusqu'à ce que la valeur moyenne soit 1 lorsque . La moyenne d'une distribution bêta est donc une telle progression arithmétique était inévitable de notre observation précédente que, pour fixe , la somme est constante mais augmente de 0,5 pour chaque régresseur ajouté au modèle.R 2 kR2 - 1n - 1 k=nk1n1k=n αα + β nα+βααα+βnα+βα

αα + β =(k-1)/ 2( k - 1 ) / 2 + ( n - k ) / 2 =k- 1n - 1

αα+β=(k1)/2(k1)/2+(nk)/2=k1n1

Code pour les parcelles

require(grid)
require(dplyr)

nlist <- 3:9 #change here which n to plot
klist <- 2:8 #change here which k to plot

totaln <- length(nlist)
totalk <- length(klist)

df <- data.frame(
    x = rep(seq(0, 1, length.out = 100), times = totaln * totalk),
    k = rep(klist, times = totaln, each = 100),
    n = rep(nlist, each = totalk * 100)
)

df <- mutate(df,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    density = dbeta(x, (k-1)/2, (n-k)/2),
    groupcol = ifelse(x < 0.5, 
        ifelse(a < 1, "below 1", ifelse(a ==1, "equals 1", "more than 1")),
        ifelse(b < 1, "below 1", ifelse(b ==1, "equals 1", "more than 1")))
)

g <- ggplot(df, aes(x, density)) +
    geom_line(size=0.8) + geom_area(aes(group=groupcol, fill=groupcol)) +
    scale_fill_brewer(palette="Set1") +
    facet_grid(nname ~ kname)  + 
    ylab("probability density") + theme_bw() + 
    labs(x = expression(R^{2}), fill = expression(alpha~(left)~beta~(right))) +
    theme(panel.margin = unit(0.6, "lines"), 
        legend.title=element_text(size=20),
        legend.text=element_text(size=20), 
        legend.background = element_rect(colour = "black"),
        legend.position = c(1, 1), legend.justification = c(1, 1))


df2 <- data.frame(
    k = rep(klist, times = totaln),
    n = rep(nlist, each = totalk),
    x = 0.5,
    ymean = 7.5,
    ymode = 5,
    ysd = 2.5
)

df2 <- mutate(df2,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    meanR2 = ifelse(k > n, NaN, a/(a+b)),
    modeR2 = ifelse((a>1 & b>=1) | (a>=1 & b>1), (a-1)/(a+b-2), 
        ifelse(a<1 & b>=1 & n>=k, 0, ifelse(a>=1 & b<1 & n>=k, 1, NaN))),
    sdR2 = ifelse(k > n, NaN, sqrt(a*b/((a+b)^2 * (a+b+1)))),
    meantext = ifelse(is.nan(meanR2), "", paste("Mean =", round(meanR2,3))),
    modetext = ifelse(is.nan(modeR2), "", paste("Mode =", round(modeR2,3))),
    sdtext = ifelse(is.nan(sdR2), "", paste("SD =", round(sdR2,3)))
)

g <- g + geom_text(data=df2, aes(x, ymean, label=meantext)) +
    geom_text(data=df2, aes(x, ymode, label=modetext)) +
    geom_text(data=df2, aes(x, ysd, label=sdtext))
print(g)

1
Visualisation vraiment éclairante. +1
Khashaa

Excellent ajout, +1, merci. J'ai remarqué que vous appelez un mode lorsque la distribution passe à lorsque (et nulle part ailleurs) - quelque chose @Alecos ci-dessus (dans les commentaires) ne voulait pas faire. Je suis d'accord avec toi: c'est pratique. 0 + x 00+x0
amibe dit Réintégrer Monica

1
@amoeba des graphiques, nous aimerions dire "les valeurs autour de 0 sont les plus probables" (ou 1). Mais la réponse d'Alecos est également à la fois cohérente et cohérente avec de nombreuses autorités (les gens diffèrent sur ce qu'il faut faire à propos du point 0 et 1, et encore moins s'ils peuvent compter comme mode!). Mon approche du mode diffère d'Alecos principalement parce que j'utilise des conditions sur alpha et bêta pour déterminer où la formule est applicable, plutôt que de prendre mon point de départ comme formule et de voir quels k et n donnent des réponses sensées.
Silverfish

1
(+1), c'est une réponse très charnue. En gardant trop proche de et tous deux petits, la question étudie en détail, et donc de manière décisive, le cas d'échantillons vraiment petits avec des régresseurs relativement trop nombreux et non pertinents. k nkn
Alecos Papadopoulos

@amoeba Vous avez probablement remarqué que cette réponse fournit une réponse algébrique pour laquelle, pour un suffisamment grand , le mode de distribution est 0 pour mais positif pour . Puisque alors pour nous avons qui aura clairement le mode à 0 pour , alors que pour nous avons dont le maximum peut être trouvé par calcul comme étant la formule de mode citée. À mesure que augmente, la puissance de augmente de 0,5 à chaque fois. C'est çan k = 3 k > 3 f ( x ) x ( k - 3 ) / 2 ( 1 - x ) ( n - k - 2 ) / 2 k = 3 f ( x ) ( 1 - x ) ( n - 5 ) / 2 n > 5 k = 4 fnk=3k>3f(x)x(k3)/2(1x)(nk2)/2k=3f(x)(1x)(n5)/2n>5k=4( X ) α x 1 / 2 ( 1 - x ) ( n - 6 ) / 2 k x x α - 1 f ( 0 ) = 0f(x)x1/2(1x)(n6)/2kxxα1 facteur qui fait donc tue le mode à 0f(0)=0
Silverfish
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.