Cette réponse décrit trois façons de gérer les différentes tailles d'échantillon de manière appropriée: un modèle linéaire généralisé et deux régressions des moindres carrés ordinaires pondérés. Dans ce cas, les trois fonctionnent bien. En général, lorsque certaines proportions sont proches0 ou 1, le GLM est meilleur.
Parce que les tailles d'échantillon sont si petites par rapport aux populations (moins de dix pour cent d'entre elles), pour une excellente approximation, la distribution des yeux bleus et non bleus donne un échantillon de taille nest binomial (car les échantillons sont aléatoires). L'autre paramètre binomial,p, est la proportion réelle (mais inconnue) de sujets aux yeux bleus dans la population. Ainsi, la chance d'observerk les gens aux yeux bleus est
(nk)pk( 1 - p)n - k.(1)
Chaque décennie, nous savons que et ceux-ci sont donnés par les données - mais nous ne savons pas . On peut l'estimer en supposant que la cote de log correspondant à varie linéairement d'une année à l'autre (au moins à une bonne approximation). Cela signifie que nous supposons qu'il existe des nombres et tels quenkppβ0β1
Journal( p ) - journal( 1 - p ) =β0+β1× Année .
De manière équivalente,
p =11 +e-β0-β1An; 1 - p = e-β0-β1An1 +e-β0-β1An.
Le brancher sur (1) donne la possibilité d'observer sur pendant une année donnée commeknt
(nk)e- (β0+β1t ) ( n - k )( 1 +e- (β0+β1t ))n.(2)
En supposant que les échantillons sont obtenus indépendamment aux années etc. et en écrivant les tailles et les nombres d'échantillons correspondants de sujets aux yeux bleus comme et , la probabilité des données est le produit des probabilités des résultats individuels. Ce produit est (par définition) la probabilité de . Nous pouvons estimer ces paramètres comme les valeurs qui maximisent la probabilité; de façon équivalente, ils maximisent la probabilité logarithmiquet1,t2, njekje(β0,β1)(β^0,β^1)
Λ (β0,β1) =∑tJournal( (nk)e- (β0+β1t ) ( n - k )( 1 +e- (β0+β1t ))n)(3)
obtenu à partir de .( 2 )
(Cela simplifie considérablement, en utilisant des règles de logarithmes, ce qui est une raison pour exprimer la relation temps-proportion en termes de cotes de log. Lorsque toutes les proportions sont comprises entre et , environ, il y a peu de différence qualitative entre l'utilisation des probabilités ou leur log cotes: la courbe ajustée sera respectivement linéaire ou proche de linéaire.)0.20.8p
(3) est un modèle linéaire généralisé binomial . Il doit être ajusté en minimisant numériquement . La procédure en (indiquée à la fin de ce post) donne la solutionΛglm
R
(β^0,β^1)GLM=(31.498711,−0.0163568).

Les données de cette figure sont tracées avec des disques dont les zones sont proportionnelles à la taille des échantillons. L'ajustement GLM est curviligne. Pour la comparaison, en gris, la ligne que nous obtiendrions simplement en vidant les données affichées dans la question dans un solveur Ordinaire des moindres carrés. Les deux ajustements sont influencés par les proportions plus importantes des années précédentes, malgré la petite taille des échantillons à l'époque. Cependant, l'ajustement GLM fait un meilleur travail d'approximation des proportions dans les plus grands échantillons obtenus en 1970 et 1980. La ligne bleue en pointillés est décrite ci-dessous.(Year,Proportion)
En ajoutant un terme quadratique, nous pouvons tester la qualité de l'ajustement. Il améliore considérablement l'ajustement GLM (bien que visuellement la différence ne soit pas grande), ce qui prouve que ce modèle ne décrit pas bien la variation des résultats. L'examen du graphique indique que le résultat en 1990 était bien inférieur à celui prévu par le modèle.
Une approche alternative, mais comparable, consiste à estimer individuellement pour chaque année , peut-être comme (bien que d'autres estimateurs soient possibles). Une régression linéaire des cotes logarithmiques de ces estimations par rapport à l'année, pondérée par les tailles d'échantillon , ou régression des moindres carrés pondérés, donneptiki/nini
(β^0,β^1)WLS=(36.12744,−0.018706).
Les erreurs-types de ces estimations sont respectivement de et , ce qui indique que les estimations WLS ne diffèrent pas significativement du GLM binomial. (Les erreurs standard du GLM sont cependant beaucoup plus petites: il "sait" que ces tailles d'échantillon sont assez grandes tandis que la régression linéaire "ne sait" rien du tout sur les tailles d'échantillon: il n'a qu'une séquence de dix observations distinctes.) Notez que cette l'alternative pourrait ne pas être disponible si ou , sauf si un estimateur différent des probabilités est utilisé (qui ne produit pas de valeurs de ou ).15.550.00787ki=niki=001
Enfin, nous pourrions simplement effectuer une régression des moindres carrés pondérés des estimations de probabilité brutes rapport à l'année, inversement pondérée par une estimation de la variance de l'échantillon. La variance d'une variable binomiale , ré-exprimée en proportion est . Cela peut être estimé à partir d'un échantillon commek/n(n,p)XX/np(1−p)/n
p(1−p)n≈knn−kn/n=k(n−k)n3.
Son résultat apparaît sur la figure sous la forme d'une ligne bleue en pointillés. Dans ce cas, il semble qu'il y ait un compromis entre les ajustements GLM et OLS.
Le R
code suivant a effectué les analyses et produit la figure.
year <- seq(1910, 2000, by=10)
total <- c(40, 200, 7, 3, 1, 14, 5000, 7000, 150, 500) * 10
blue <- c(250, 1000, 40, 14, 4, 52, 15400, 22000, 80, 800)
X <- data.frame(Year=year, Success=blue, Failure=total-blue,
Proportion=blue/total, Total=total)
#
# GLM
#
fit <- glm(cbind(Success, Failure) ~ Year, X, family="binomial")
summary(fit)
#
# WLS of the log odds (an alternative)
#
fit.WLS <- lm(log(Success/Failure) ~ Year, X, weights=Total)
summary(fit.WLS)
#
# Plot the results.
#
X.more <- data.frame(Year=1901:2010)
X.more$Prediction <- predict(fit, X.more, type="response")
plot(X$Year, X$Proportion, ylim=0:1,
type="p", pch=21, bg="Red", cex=sqrt(X$Total/2000),
xlab="Year", ylab="Proportion",
main="GLM and OLS Fits", sub="GLM: solid line; OLS: dotted line")
lines(X.more, lwd=2)
abline(lm(Proportion ~ Year, X),
lty=3, lwd=3, col="Gray") #The OLS fit
abline(lm(Proportion ~ Year, X, weights=Total^3/(Success*Failure)),
lty=3, lwd=3, col="Blue") #The weighted OLS fit to the proportions