Une approche simple serait la suivante.
Pour les deux questions de préférence, prenez la différence absolue entre les réponses des deux répondants, en donnant deux variables, disons z1 et z2, au lieu de quatre.
Pour les questions d'importance, je pourrais créer un score qui combine les deux réponses. Si les réponses étaient, disons, (1,1), je donnerais 1, a (1,2) ou (2,1) obtient un 2, a (1,3) ou (3,1) obtient un 3, un (2,3) ou (3,2) obtient un 4 et un (3,3) obtient un 5. Appelons cela le «score d'importance». Une alternative serait simplement d'utiliser max (réponse), donnant 3 catégories au lieu de 5, mais je pense que la version à 5 catégories est meilleure.
Je créerais maintenant dix variables, x1 - x10 (pour le concret), toutes avec des valeurs par défaut de zéro. Pour les observations avec un score d'importance pour la première question = 1, x1 = z1. Si le score d'importance pour la deuxième question est également = 1, x2 = z2. Pour les observations avec un score d'importance pour la première question = 2, x3 = z1 et si le score d'importance pour la deuxième question = 2, x4 = z2, etc. Pour chaque observation, exactement une parmi x1, x3, x5, x7, x9! = 0, et de même pour x2, x4, x6, x8, x10.
Après avoir fait tout cela, je ferais une régression logistique avec le résultat binaire comme variable cible et x1 - x10 comme régresseurs.
Des versions plus sophistiquées de cela pourraient créer des scores plus importants en permettant de traiter différemment l'importance des répondants masculins et féminins, par exemple a (1,2)! = A (2,1), où nous avons ordonné les réponses par sexe.
Un défaut de ce modèle est que vous pourriez avoir plusieurs observations de la même personne, ce qui signifierait que les "erreurs", en gros, ne sont pas indépendantes d'une observation à l'autre. Cependant, avec beaucoup de personnes dans l'échantillon, je vais probablement simplement ignorer cela, pour un premier passage, ou construire un échantillon où il n'y a pas de doublons.
Un autre inconvénient est qu'il est plausible qu'à mesure que l'importance augmente, l'effet d'une différence donnée entre les préférences sur p (échec) augmente également, ce qui implique une relation entre les coefficients de (x1, x3, x5, x7, x9) et également entre les coefficients de (x2, x4, x6, x8, x10). (Probablement pas un ordre complet, car il n'est pas a priori clair pour moi comment un score d'importance (2,2) est lié à un score d'importance (1,3).) Cependant, nous n'avons pas imposé cela dans le modèle. J'ignorerais probablement cela au début et verrais si je suis surpris par les résultats.
L'avantage de cette approche est qu'elle n'impose aucune hypothèse sur la forme fonctionnelle de la relation entre l '«importance» et la différence entre les réponses de préférence. Cela contredit le commentaire précédent sur le manque à gagner, mais je pense que l'absence d'une forme fonctionnelle imposée est probablement plus bénéfique que le fait de ne pas tenir compte des relations attendues entre les coefficients.