Un échantillon de population aléatoire a été sondé. On leur a demandé s'ils avaient un régime végétarien. S'ils ont répondu oui, on leur a également demandé de préciser depuis combien de temps ils suivaient un régime végétarien sans interruption. Je veux utiliser ces données pour calculer la durée moyenne d'adhésion au végétarisme. En d'autres termes, quand quelqu'un devient végétarien, je veux savoir longtemps en moyenne qu'il reste végétarien. Supposons que:
- Tous les répondants ont donné des réponses correctes et exactes
- Le monde est stable: la popularité du végétarisme ne change pas, la durée moyenne d'adhésion ne change pas non plus.
Mon raisonnement jusqu'à présent
J'ai trouvé utile d'analyser un modèle de jouet du monde, où au début de chaque année deux personnes deviennent végétariennes. A chaque fois, l'un d'eux reste végétarien pendant 1 an et un autre pendant 3 ans. De toute évidence, la durée moyenne d'adhésion dans ce monde est de (1 + 3) / 2 = 2 ans. Voici un graphique qui illustre l'exemple. Chaque rectangle représente une période de végétarisme:
Disons que nous prenons une enquête au milieu de l'année 4 (ligne rouge). Nous obtenons les données suivantes:
Nous obtiendrions les mêmes données si nous prenions l'enquête à n'importe quelle année, à partir de la troisième année. Si nous faisons simplement la moyenne des réponses que nous obtenons:
(2 * 0,5 + 1,5 + 2,5) / 4 = 1,25
Nous sous-estimons parce que nous supposons que tout le monde a cessé d'être végétarien juste après l'enquête, ce qui est évidemment incorrect. Pour obtenir une estimation qui est plus proche de la durée moyenne réelle pendant laquelle ces participants resteraient végétariens, nous pouvons supposer qu'en moyenne, ils ont signalé un temps à mi-chemin de leur période de végétarisme et multiplier les durées déclarées par 2. Dans une grande enquête tirant au hasard de la population (comme celle que j'analyse), je pense que c'est une hypothèse réaliste. Au moins, cela donnerait une valeur attendue correcte. Cependant, si doubler est la seule chose que nous faisons, nous obtenons une moyenne de 2,5, ce qui est une surestimation. En effet, plus la personne reste végétarienne, plus il est probable qu'elle soit dans l'échantillon de végétariens actuels.
J'ai alors pensé que la probabilité qu'une personne se trouve dans l'échantillon de végétariens actuels est proportionnelle à leur durée de végétarisme. Pour tenir compte de ce biais, j'ai essayé de diviser le nombre de végétariens actuels par leur durée d'adhésion prévue:
Cependant, cela donne également une moyenne incorrecte:
(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2,533333 = 1,579 ans
Cela donnerait une estimation correcte si le nombre de végétariens était divisé par leur longueur d'adhésion correcte:
(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 ans
Mais cela ne fonctionne pas si j'utilise les durées d'adhésion prévues et c'est tout ce que j'ai en réalité. Je ne sais pas quoi essayer d'autre. J'ai lu un peu sur l'analyse de survie mais je ne sais pas comment l'appliquer dans ce cas. Idéalement, j'aimerais également pouvoir calculer un intervalle de confiance à 90%. Tous les conseils seraient grandement appréciés.
EDIT: Il est possible que la question ci-dessus n'ait pas de réponse. Mais il y avait aussi une autre étude qui demandait à un échantillon aléatoire de personnes si elles étaient / étaient végétariennes et combien de fois elles étaient végétariennes dans le passé. Je connais également l'âge de tout le monde dans les deux études et d'autres choses. Peut-être que ces informations peuvent être utilisées conjointement avec l'enquête auprès des végétariens actuels pour obtenir la moyenne d'une manière ou d'une autre. En réalité, l'étude dont j'ai parlé n'est qu'une pièce du puzzle, mais très importante et je veux en tirer le meilleur parti.