Eh bien, si vous connaissiez les variances entre les paires non appariées et les paires (qui seraient généralement beaucoup plus petites), les poids optimaux pour les deux estimations de la différence dans les moyennes des groupes seraient d'avoir des poids inversement proportionnels à la variance de l'individu estimations de la différence de moyennes.
[Modifier: il s'avère que lorsque les variances sont estimées, cela s'appelle l'estimateur de Graybill-Deal. Il y a eu pas mal de papiers là-dessus. En voici un]
La nécessité d'estimer la variance cause certaines difficultés (le rapport résultant des estimations de la variance est F, et je pense que les poids résultants ont une distribution bêta, et une statistique résultante est un peu compliquée), mais puisque vous envisagez de démarrer, cela peut être moins préoccupant.
Une autre possibilité qui pourrait être plus agréable dans un certain sens (ou au moins un peu plus robuste à la non-normalité, puisque nous jouons avec des ratios de variance) avec très peu de perte d'efficacité à la normale est de baser une estimation combinée de la déconnexion tests de rangs appariés et non appariés - dans chaque cas, une sorte d'estimation de Hodges-Lehmann, dans le cas non apparié sur la base des médianes des différences entre échantillons par paires et dans le cas apparié des médianes des moyennes par paires-des différences de paires. Encore une fois, la combinaison linéaire pondérée de variance minimale des deux serait avec des poids proportionnels aux inverses de variances. Dans ce cas, je pencherais probablement vers une permutation (/ randomisation) plutôt qu'un bootstrap - mais selon la façon dont vous implémentez votre bootstrap, ils peuvent se retrouver au même endroit.
Dans les deux cas, vous souhaiterez peut-être renforcer vos variances / réduire votre ratio de variance. Obtenir le bon niveau de poids est bien, mais vous perdrez très peu d'efficacité à la normale en le rendant légèrement robuste. ---
Quelques réflexions supplémentaires que je n'avais pas assez clairement définies dans ma tête auparavant:
Ce problème présente des similitudes distinctes avec le problème de Behrens-Fisher, mais il est encore plus difficile.
Si nous fixions les poids, nous pourrions simplement taper dans une approximation de type Welch-Satterthwaite; la structure du problème est la même.
Notre problème est que nous voulons optimiser les poids, ce qui signifie effectivement que la pondération n'est pas fixe - et, en fait, tend à maximiser la statistique (au moins approximativement et plus près dans les grands échantillons, car tout ensemble de poids est une quantité aléatoire estimant la même numérateur, et nous essayons de minimiser le dénominateur; les deux ne sont pas indépendants).
J'imagine que cela aggraverait l'approximation du chi carré et affecterait presque sûrement davantage le df d'une approximation.
[Si ce problème est réalisable, il pourrait aussi se révéler une bonne règle empirique qui dirait «vous pouvez faire presque aussi bien si vous n'utilisez que les données appariées dans ces ensembles de circonstances, uniquement les non appariées sous ces autres ensembles de conditions et dans le reste, ce régime de poids fixe est généralement très proche de l'optimum »- mais je ne retiens pas mon souffle en attendant cette chance. Une telle règle de décision aurait sans aucun doute un impact sur la véritable signification dans chaque cas, mais si cet effet n'était pas si important, une telle règle de base permettrait aux gens d'utiliser facilement les logiciels existants, il pourrait donc être souhaitable de essayez d'identifier une règle comme celle pour les utilisateurs dans une telle situation.]
---
Edit: Note à soi-même - Besoin de revenir et de remplir les détails du travail sur les tests des «échantillons qui se chevauchent», en particulier les tests t des échantillons qui se chevauchent
---
Il me semble qu'un test de randomisation devrait fonctionner correctement -
où les données sont appariées, vous permutez au hasard les étiquettes de groupe au sein de paires
lorsque les données ne sont pas appariées mais supposées avoir une distribution commune (sous la valeur null), vous permutez les affectations de groupe
vous pouvez maintenant baser les pondérations sur les deux estimations de décalage à partir des estimations de variance relative ( ), calculer l'estimation pondérée de décalage de chaque échantillon randomisé et voir où se situe l'échantillon dans le distribution de randomisation.w1= 1 / ( 1 + v1v2)
(Ajouté beaucoup plus tard)
Document éventuellement pertinent:
Derrick, B., Russ B., Toher, D. et White, P. (2017),
«Test Statistics for the Comparison of Means for Two Samples that include both Paired and Independent Observations»
Journal of Modern Applied Statistical Methods , mai , Vol. 16, n ° 1, 137-157.
doi: 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm