Comment la puissance d'une régression logistique et d'un test t se compare-t-elle?

La puissance d'une régression logistique et d'un test t est-elle équivalente? Dans l'affirmative, elles devraient être «équivalentes à la densité de données», ce qui signifie que le même nombre d'observations sous-jacentes donne la même puissance, étant donné un alpha fixe de 0,05. Considérons deux cas:

[Le test paramétrique t]: 30 tirages d'une observation binomiale sont effectués et les valeurs résultantes sont moyennées. Cela se fait 30 fois pour le groupe A (qui a un Pr binomial de 0,70 d'occurrence) et 30 fois pour le groupe B (qui a un Pr binomial de 0,75 d'occurrence). Cela donne 30 moyennes par groupe qui représentent un résumé de 1 800 tirages d'une distribution binomiale. Un test t de 58df est effectué pour comparer les moyennes.
[La régression logistique]: Une régression logistique est effectuée avec une pente codée factice représentant l'appartenance au groupe et chacun des 1 800 tirages.

Ma question comporte deux parties:

Étant donné un ensemble alpha de 0,05, la puissance de ces méthodologies sera-t-elle identique ou différente? Pourquoi? Comment puis-je le prouver?
La réponse à la question 1 est-elle sensible à la taille des échantillons entrant dans le test t, à la taille de l'échantillon de chaque groupe du test t, aux probabilités binomiales sous-jacentes ou à un autre facteur? Si oui, comment puis-je savoir (sans simulation) que la puissance est bien différente et quel type de changements produira quel type de changements de puissance? Vous pouvez également fournir un code R élaboré qui résout le problème à l'aide de la simulation.

— russellpierce
source

Si j'ai calculé correctement, la régression logistique a asymptotiquement la même puissance que le test t. Pour le voir, notez sa log log vraisemblance et calculez l'attente de sa Hesse à son maximum global (son négatif estime la matrice variance-covariance de la solution ML). Ne vous embêtez pas avec le paramétrage logistique habituel: il est plus simple de le paramétrer avec les deux probabilités en question. Les détails dépendront exactement de la façon dont vous testez la signification d'un coefficient de régression logistique (il existe plusieurs méthodes).

Que ces tests aient des pouvoirs similaires ne devrait pas être trop surprenant, car la théorie du chi carré pour les estimations de ML est basée sur une approximation normale de la vraisemblance logarithmique, et le test t est basé sur une approximation normale des distributions de proportions. Le nœud du problème est que les deux méthodes font les mêmes estimations des deux proportions et que les deux estimations ont les mêmes erreurs types.

Une analyse réelle pourrait être plus convaincante. Adoptons une terminologie générale pour les valeurs d'un groupe donné (A ou B):

est la probabilité de 1. $p$
est la taille de chaque série de tirages. $n$
est le nombre d'ensembles de tirages. $m$
est la quantité de données. $N = m n$
(égal à ou ) est la valeur du résultat du jeu de tirages. $k_{ij}$ $0$ $1$ $j^\text{th}$ $i^\text{th}$
est le nombre total de uns dans le jeu de tirages. $k_i$ $i^\text{th}$
est le nombre total de uns. $k$

La régression logistique est essentiellement l'estimateur ML de . Son logarithme est donné par $p$

\log (L) = k \log (p) + (N - k) \log (1 - p) .

$\log(\mathbb{L}) = k \log(p) + (N-k) \log(1-p).$

Ses dérivées par rapport au paramètre sont $p$

\frac{\partial Journal (L)}{\partial p} = \frac{k}{p} - \frac{N - k}{1 - p} et

$\frac{\partial \log(\mathbb{L})}{ \partial p} = \frac{k}{p} - \frac{N-k}{1-p} \text{ and}$

- \frac{\partial^{2} Journal (L)}{\partial p^{2}} = \frac{k}{p^{2}} + \frac{N - k}{(1 - p)^{2}} .

$-\frac{\partial^2 \log(\mathbb{L})}{\partial p^2} = \frac{k}{p^2} + \frac{N-k}{(1-p)^2}.$

Réglage des premier à zéro l'estimation ML des rendements , et de brancher ce que dans l'inverse de la seconde expression donne la variance , qui est le carré de l'erreur standard. ${\hat{p} = k/N}$ $\hat{p}(1 - \hat{p})/N$

La statistique t sera obtenue à partir d'estimateurs basés sur les données regroupées par ensembles de tirages; à savoir, comme la différence des moyennes (l'une du groupe A et l'autre du groupe B) divisée par l'erreur-type de cette différence, qui est obtenue à partir des écarts-types des moyennes. Examinons donc la moyenne et l'écart-type pour un groupe donné. Les moyennes égales , qui est identique à l'estimateur ML . L'écart type en question est l' écart type des moyens d'étirage; c'est-à-dire qu'il s'agit de l'écart type de l'ensemble de . Voici le nœud du problème, alors explorons quelques possibilités. $k/N$ $\hat{p}$ $k_i/n$

Supposons que les données ne sont pas regroupés en tire du tout: qui est, et . Les sont les moyens de tirage. Leur échantillon variance est égale à fois . Il en résulte que l'erreur-type est identique à l'erreur-type ML à l'exception d'un facteur $n = 1$ $m = N$ $k_{i}$ $N/(N-1)$ $\hat{p}(1 - \hat{p})$ , qui est essentiellementlorsque. Par conséquent - à part cette petite différence - tout test basé sur la régression logistique sera le même qu'un test t et nous obtiendrons essentiellement la même puissance. $\sqrt{N/(N-1)}$ $1$ $N = 1800$
Lorsque les données sont regroupées, la (vraie) variance des est égale à car les statistiques représentent la somme de variables de Bernoulli ( ), chacune avec la variance . Par conséquent, l' erreur type attendue de la moyenne de de ces valeurs est la racine carrée de $k_i/n$ $p(1-p)/n$ $k_i$ $n$ $p$ $p(1-p)$ $m$ , comme précédemment. $p(1-p)/n/m = p(1-p)/N$

Le chiffre 2 indique que la puissance du test ne devrait pas varier sensiblement selon la répartition des tirages (c'est-à-dire avec la façon dont et varient en fonction de ), à part peut-être un effet assez faible de l'ajustement dans l'échantillon variance (sauf si vous étiez assez stupide pour utiliser extrêmement peu de jeux de tirages au sein de chaque groupe). $m$ $n$ $m n = N$

Simulations limitées pour comparer à (avec 10 000 itérations chacune) impliquant (régression essentiellement logistique); ; et (maximisation de l'ajustement de la variance de l'échantillon) le confirment: la puissance (à $p = 0.70$ $p = 0.74$ $m = 900, n = 1$ $m = n = 30$ $m = 2, n = 450$ $\alpha = 0.05$ , unilatéral) dans les deux premiers cas est de 0,59 alors que dans le troisième, où le facteur d'ajustement fait un changement important (il n'y a maintenant que deux degrés de liberté au lieu de 1798 ou 58), il tombe à 0,36. Un autre test comparant à donne des puissances de 0,22, 0,21 et 0,15, respectivement: encore une fois, nous observons seulement une légère baisse de l'absence de regroupement en tirages (= régression logistique) au regroupement en 30 groupes et une baisse substantielle à seulement deux groupes. $p = 0.50$ $p = 0.52$

La morale de cette analyse est:

Vous ne perdez pas grand-chose lorsque vous partitionnez vos valeurs de données en un grand nombre de groupes de "tirages" relativement petits. $N$ $m$
Vous pouvez perdre une puissance appréciable en utilisant un petit nombre de groupes ( est petit, - la quantité de données par groupe - est grande). $m$ $n$
Il vaut mieux ne pas regrouper vos valeurs de données en "tirages" du tout. Il suffit de les analyser tels quels (en utilisant tout test raisonnable, y compris la régression logistique et les tests t). $N$

— whuber
source

@suncoolsu C'est dommage que nous ne puissions pas voter pour la mise à jour ...

— chl

@chl .. Je suis d'accord, j'aurais aimé donner (+2) :-), en fait, je n'ai jamais réfléchi aussi profondément à cette question jusqu'à cette mise à jour.

— suncoolsu

Comme d'habitude, un tour de force de Bill Huber. Je regarde la question de savoir comment comparer la puissance du test t avec une régression logistique. Mais il semble que le point commun consiste à mettre les deux méthodes à l'épreuve des proportions.

— Michael R. Chernick

Voici le code en R qui illustre la simulation de la réponse de whuber . Les commentaires sur l'amélioration de mon code R sont plus que bienvenus.

N <- 900            # Total number data points
m <- 30;            # Size of draw per set
n <- 30;            # No of sets

p_null <- 0.70;     # Null hypothesis
p_alternate <- 0.74 # Alternate hypothesis
tot_iter <- 10000;

set.seed(1);        # Initialize random seed
null_rejected <- 0; # Set counter to 0
for (iter in 1:tot_iter)
{
    draws1 <- matrix(0,m,n);
    draws2 <- matrix(0,m,n);
    means1 <- matrix(0,m);
    means2 <- matrix(0,m);

    for (obs in 1:m)
    {
        draws1[obs,] <- rbinom(n,1,p_null);
        draws2[obs,] <- rbinom(n,1,p_alternate);

        means1[obs,] <- mean(draws1[obs,]);
        means2[obs,] <- mean(draws2[obs,]);
    }
    if (t.test(means1,means2,alternative="l")$p.value <= 0.05)
    {
        null_rejected <- null_rejected + 1; 
    }
}
power <- null_rejected / tot_iter

— Communauté
source

Merci de partager ça! (J'aime votre style de faire toutes les variables de paramètres et de les commenter clairement.) Je n'ai plus de votes aujourd'hui :-( donc je vais devoir attendre pour voter.

— whuber

replicate()rbinom()

k

$k$ {*}apply()

@chl Merci. J'utilise ces questions pour apprendre R! Ainsi, les commentaires tels que le vôtre sont précieux.

@Skrikant LOL J'étais en train d'ajouter: "BTW j'aime la façon dont vous apprenez R!"

— chl

Je suis confus; cela ne donne-t-il pas seulement la puissance du t.test?

— russellpierce