test t pour les données partiellement appariées et partiellement non appariées

28

Un enquêteur souhaite produire une analyse combinée de plusieurs ensembles de données. Dans certains ensembles de données, il existe des observations appariées pour les traitements A et B. Dans d'autres, il existe des données A et / ou B non appariées. Je recherche une référence pour une adaptation du test t, ou pour un test de rapport de vraisemblance, pour de telles données partiellement appariées. Je suis prêt à (pour l'instant) assumer la normalité avec une variance égale et que les moyennes de population pour A sont les mêmes pour chaque étude (et de même pour B).

— Frank Harrell
source

2

Salut Frank. Il serait peut-être utile de rendre les hypothèses de modélisation plus explicites. Normalement, quand je pense à des conceptions appariées, je pense à l'un des éléments suivants (i) essayer de supprimer les effets fixes non observables au niveau de l'unité, (ii) réduire la variabilité d'un effet aléatoire entre les unités expérimentales, ou (iii) ajuster la non-normalité de la réponse en prenant des différences entre les paires, obtenant ainsi une meilleure approximation. En particulier, je ne vois immédiatement aucun avantage dans les paires appariées si l'hypothèse sous le zéro est que les observations sont toutes normales.

— cardinal du

4

Cardinal, j'ai en fait beaucoup de données qui ressemblent à ça aussi. Nous essayions de collecter des données entièrement appariées, mais en raison de problèmes techniques ou de la malchance, certaines mesures d'échantillons sous A ou B sont parfois gâchées. Les deux solutions évidentes - mais insatisfaisantes - sont de 1) jeter toutes les paires incomplètes et faire un test t apparié, ou 2) ignorer l'appariement et faire un test t non apparié sur toutes les données. Je pense que l'affiche demande un moyen de tirer parti de l'appariement là où il existe (pour votre raison n ° 1 et n ° 2), tout en récupérant tout ce qu'il peut des autres points de données non appariés.

— Matt Krause

2

J'apprécie tous les commentaires. Pour les paires appariées, les sujets ont été testés sous A et B.Une façon de tirer parti de l'appariement consiste à utiliser l'intervalle de confiance du percentile non paramétrique de bootstrap pour la différence entre les moyennes de A et B. Cela impliquerait d'utiliser le bootstrap de cluster, l'échantillonnage avec remplacement à partir de sujets. Un sujet qui n'a pas de données appariées aurait une observation conservée ou supprimée dans un rééchantillonnage, et les données appariées auraient deux enregistrements conservés ou supprimés. Cela semble respecter l'appariement, mais un estimateur doit être défini et nous ne connaissons pas l'optimalité.

— Frank Harrell

1

L'approche bayésienne est facile à mettre en œuvre.

— Stéphane Laurent

2

Hani M. Samawi & Robert Vogel, Journal of Applied Statistics (2013): Notes sur deux échantillons de tests pour des données partiellement corrélées (appariées), dx.doi.org/10.1080/02664763.2013.830285

— Suresh

6

Guo et Yuan suggèrent une méthode alternative appelée le test t groupé optimal issu du test t groupé de Samawi et Vogel.

Lien vers la référence: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.865.734&rep=rep1&type=pdf

Bonne lecture avec plusieurs options pour cette situation.

Nouveau dans les commentaires, faites-le moi savoir si je dois ajouter autre chose.

— yani_t
source

8

Eh bien, si vous connaissiez les variances entre les paires non appariées et les paires (qui seraient généralement beaucoup plus petites), les poids optimaux pour les deux estimations de la différence dans les moyennes des groupes seraient d'avoir des poids inversement proportionnels à la variance de l'individu estimations de la différence de moyennes.

[Modifier: il s'avère que lorsque les variances sont estimées, cela s'appelle l'estimateur de Graybill-Deal. Il y a eu pas mal de papiers là-dessus. En voici un]

La nécessité d'estimer la variance cause certaines difficultés (le rapport résultant des estimations de la variance est F, et je pense que les poids résultants ont une distribution bêta, et une statistique résultante est un peu compliquée), mais puisque vous envisagez de démarrer, cela peut être moins préoccupant.

Une autre possibilité qui pourrait être plus agréable dans un certain sens (ou au moins un peu plus robuste à la non-normalité, puisque nous jouons avec des ratios de variance) avec très peu de perte d'efficacité à la normale est de baser une estimation combinée de la déconnexion tests de rangs appariés et non appariés - dans chaque cas, une sorte d'estimation de Hodges-Lehmann, dans le cas non apparié sur la base des médianes des différences entre échantillons par paires et dans le cas apparié des médianes des moyennes par paires-des différences de paires. Encore une fois, la combinaison linéaire pondérée de variance minimale des deux serait avec des poids proportionnels aux inverses de variances. Dans ce cas, je pencherais probablement vers une permutation (/ randomisation) plutôt qu'un bootstrap - mais selon la façon dont vous implémentez votre bootstrap, ils peuvent se retrouver au même endroit.

Dans les deux cas, vous souhaiterez peut-être renforcer vos variances / réduire votre ratio de variance. Obtenir le bon niveau de poids est bien, mais vous perdrez très peu d'efficacité à la normale en le rendant légèrement robuste. ---

Quelques réflexions supplémentaires que je n'avais pas assez clairement définies dans ma tête auparavant:

Ce problème présente des similitudes distinctes avec le problème de Behrens-Fisher, mais il est encore plus difficile.

Si nous fixions les poids, nous pourrions simplement taper dans une approximation de type Welch-Satterthwaite; la structure du problème est la même.

Notre problème est que nous voulons optimiser les poids, ce qui signifie effectivement que la pondération n'est pas fixe - et, en fait, tend à maximiser la statistique (au moins approximativement et plus près dans les grands échantillons, car tout ensemble de poids est une quantité aléatoire estimant la même numérateur, et nous essayons de minimiser le dénominateur; les deux ne sont pas indépendants).

J'imagine que cela aggraverait l'approximation du chi carré et affecterait presque sûrement davantage le df d'une approximation.

[Si ce problème est réalisable, il pourrait aussi se révéler une bonne règle empirique qui dirait «vous pouvez faire presque aussi bien si vous n'utilisez que les données appariées dans ces ensembles de circonstances, uniquement les non appariées sous ces autres ensembles de conditions et dans le reste, ce régime de poids fixe est généralement très proche de l'optimum »- mais je ne retiens pas mon souffle en attendant cette chance. Une telle règle de décision aurait sans aucun doute un impact sur la véritable signification dans chaque cas, mais si cet effet n'était pas si important, une telle règle de base permettrait aux gens d'utiliser facilement les logiciels existants, il pourrait donc être souhaitable de essayez d'identifier une règle comme celle pour les utilisateurs dans une telle situation.]

---

Edit: Note à soi-même - Besoin de revenir et de remplir les détails du travail sur les tests des «échantillons qui se chevauchent», en particulier les tests t des échantillons qui se chevauchent

---

Il me semble qu'un test de randomisation devrait fonctionner correctement -

où les données sont appariées, vous permutez au hasard les étiquettes de groupe au sein de paires
lorsque les données ne sont pas appariées mais supposées avoir une distribution commune (sous la valeur null), vous permutez les affectations de groupe
vous pouvez maintenant baser les pondérations sur les deux estimations de décalage à partir des estimations de variance relative ( ), calculer l'estimation pondérée de décalage de chaque échantillon randomisé et voir où se situe l'échantillon dans le distribution de randomisation. $w_1 = 1/(1+\frac{v_1}{v_2})$

(Ajouté beaucoup plus tard)

Document éventuellement pertinent:

Derrick, B., Russ B., Toher, D. et White, P. (2017),
«Test Statistics for the Comparison of Means for Two Samples that include both Paired and Independent Observations»
Journal of Modern Applied Statistical Methods , mai , Vol. 16, n ° 1, 137-157.
doi: 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm

— Glen_b -Reinstate Monica
source

1

+1. J'ai une question concernant la dernière partie de votre réponse. Quelles estimations de la variance (c.-à-d. Quelles pondérations) utiliseriez-vous dans le test de permutation - celles réelles calculées sur l'échantillon réel, ou calculeriez-vous les pondérations pour chaque permutation en fonction des données de cette permutation?

— amibe dit Réintégrer Monica

@amoeba pour bien tenir compte de la nature basée sur des échantillons du calcul, vous le baseriez sur cette permutation particulière.

— Glen_b -Reinstate Monica

@amoeba Je devrais comparer cela avec d'autres approches du problème.

— Glen_b -Reinstate Monica

1

Soit dit en passant, je suis tombé sur ce fil parce que quelqu'un m'a approché avec les données suivantes: deux sujets avec des données appariées plus deux sujets avec des données non appariées (c'est-à-dire 3 mesures dans le groupe A, 3 mesures dans le groupe B, sur ces 6 valeurs 2+ 2 sont appariés et le reste n'est pas apparié). Dans ce cas, il n'y a pas assez de données pour estimer la variance de l'estimation de décalage non apparié, donc je ne pouvais rien suggérer d'autre que d'ignorer l'appariement et de faire un test non apparié ... Mais c'est bien sûr une situation assez extrême.

— amibe dit Réintégrer Monica

6

Voici quelques réflexions. J'arrive à la conclusion de Greg Snow que ce problème a des similitudes distinctes avec le problème de Behrens-Fisher . Pour éviter les ondulations, j'introduis d'abord quelques notations et formalise les hypothèses.

$n$ $x_i^{pA}$ $x_i^{pB}$ $i = 1, \dots, n$
$n_A$ $n_B$ $x_i^A$ $i = 1, \dots, n_A$ $x_i^B$ $i = 1, \dots, n_B$
chaque observation est la somme d'un effet patient et d'un effet traitement. Les variables aléatoires correspondantes sont
- $X_i^{pA} = P_i + T_i^A$ $X_i^{pB} = P_i + T_i^B$
- $X_i^A = Q_i + U_i^A$ $X_i^B = R_i + V_i^B$
$P_i, Q_i, R_i \sim \mathcal N(0,\sigma_P^2)$ $T_i^\tau, U_i^\tau, V_i^\tau \sim \mathcal N(\mu_\tau, \sigma^2)$ $\tau = A, B$
- $\mu_A = \mu_B$

$X_i = X_i^{pA} - X_i^{pB}$ $X_i \sim \mathcal N(\mu_A - \mu_B, 2\sigma^2)$

$X_i$ $n$ $X_i^A$ $n_A$ $X_i^B$ $n_B$

$X_\bullet\sim \mathcal N(\mu_A - \mu_B, {2\over n} \sigma^2)$
$X^A_\bullet\sim \mathcal N(\mu_A , {1\over n_A} (\sigma_P^2 + \sigma^2))$
$X^B_\bullet\sim \mathcal N(\mu_B , {1\over n_B} (\sigma_P^2 + \sigma^2))$

La prochaine étape naturelle est de considérer

$Y = X_\bullet + X^A_\bullet - X^B_\bullet \sim \mathcal N\left( 2(\mu_A-\mu_B), {2\over n} \sigma^2 + \left({1\over n_A}+ {1\over n_B}\right) (\sigma_P^2 + \sigma^2)\right)$

$\sigma^2$ $n-1$ $\sigma_P^2 + \sigma^2$ $n_A-1$ $n_B-1$ $\left({1\over n_A}+ {1\over n_B}\right) (\sigma_P^2 + \sigma^2)$ $n_A+n_B-2$ $Y$

À ce stade, je pense que l'on peut brancher n'importe quelle solution proposée au problème de Behrens Fisher pour obtenir une solution à votre problème.

— Elvis
source

1

J'ai corrigé quelques fautes de frappe dans les formules. Vérifiez s'il vous plaît!

— kjetil b halvorsen

5

Ma première pensée a été un modèle d'effets mixtes, mais qui a déjà été discuté donc je n'en dirai pas plus à ce sujet.

Mon autre pensée est que s'il était théoriquement possible que vous ayez pu mesurer des données appariées sur tous les sujets, mais en raison du coût, d'erreurs ou d'une autre raison pour laquelle vous n'avez pas toutes les paires, alors vous pourriez traiter l'effet non mesuré pour les sujets non appariés comme données manquantes et utiliser des outils comme l'algorithme EM ou l'imputation multiple (le fait de manquer au hasard semble raisonnable à moins que la raison pour laquelle un sujet n'a été mesuré que sous 1 traitement était liée à ce que son résultat serait sous l'autre traitement).

Il peut être encore plus simple d'ajuster simplement une normale bivariée aux données en utilisant le maximum de vraisemblance (avec la vraisemblance prise en compte sur la base des données disponibles par sujet), puis de faire un test de rapport de vraisemblance comparant la distribution avec les moyennes égales vs les moyennes différentes.

Cela fait longtemps que je n'ai pas suivi mes cours théoriques, donc je ne sais pas comment ceux-ci se comparent sur l'optimalité.

— Greg Snow
source

1

Merci Greg. Je penche vers l'approche du maximum de vraisemblance personnalisée.

— Frank Harrell

4

peut-être que la modélisation mixte avec le patient car un effet aléatoire pourrait être un moyen. Avec une modélisation mixte, la structure de corrélation dans le cas apparié et les manquements partiels dans le cas non apparié pourraient être pris en compte.

— psj
source

2

Étant donné qu'aucun des ensembles de données analysés individuellement ne conduirait à utiliser des effets aléatoires, je ne vois pas pourquoi les effets aléatoires sont utiles ici. Mais il peut être possible d'utiliser des moindres carrés généralisés pour permettre à chaque sujet d'avoir sa propre structure de corrélation. Les observations non appariées auraient une corrélation nulle. Cela vaut la peine d'y penser. Merci.

— Frank Harrell

oui, vous avez raison, les ensembles de données ne nécessiteraient pas de modélisation mixte s'ils étaient utilisés séparément. Mais si vous les ajoutez dans un seul ensemble de données, vous pouvez utiliser l'approche pour incorporer la corrélation dans les données appariées et utiliser simultanément les données non appariées en spécifiant une corrélation nulle.

— psj

1

Oui; mon point était qu'un modèle mixte peut être une exagération car vous pouvez facilement spécifier la structure de corrélation variant selon le sujet en utilisant les moindres carrés généralisés (en utilisant par exemple la glsfonction R dans le nlme4package.

— Frank Harrell

3

L'une des méthodes proposées dans Hani M. Samawi & Robert Vogel (Journal of Applied Statistics, 2013) consiste en une combinaison pondérée de scores T provenant d'échantillons indépendants et dépendants de telle sorte que le nouveau score T soit égal à

$T_o = \sqrt\gamma ( \frac {\mu_Y - \mu_X} {S_x^2/n_X + S_y^2/n_Y}) + \sqrt {(1-\gamma)} \frac {\mu_D} {S_D^2/n_D}$

$D$ $\gamma$ $\gamma$

— bonobo
source

1

T_{0}

$T_0$