Pour simplifier un peu, j'ai environ un million d'enregistrements qui enregistrent l'heure d'entrée et de sortie des personnes dans un système s'étalant sur une dizaine d'années. Chaque enregistrement a une heure d'entrée, mais pas chaque enregistrement a une heure de sortie. La durée moyenne dans le système est d'environ 1 an.
Les temps de sortie manquants se produisent pour deux raisons:
- La personne n'a pas quitté le système au moment où les données ont été saisies.
- L'heure de sortie de la personne n'a pas été enregistrée. Cela arrive à dire 50% des enregistrements
Les questions d'intérêt sont:
- Les gens passent-ils moins de temps dans le système et combien de temps en moins.
- Y a-t-il plus de temps de sortie enregistrés et combien.
Nous pouvons modéliser cela en disant que la probabilité qu'une sortie soit enregistrée varie linéairement avec le temps, et que le temps dans le système a un Weibull dont les paramètres varient linéairement avec le temps. On peut alors faire une estimation du maximum de vraisemblance des différents paramètres et globe oculaire les résultats et les juger plausibles. Nous avons choisi la distribution de Weibull parce qu'elle semble être utilisée pour mesurer les durées de vie et est amusante à dire, par opposition à un meilleur ajustement des données que, disons, une distribution gamma.
Où dois-je chercher pour obtenir un indice sur la façon de procéder correctement? Nous sommes quelque peu avertis mathématiquement, mais pas très avertis statistiquement.