J'essaie de lancer un modèle pour estimer dans quelle mesure les maladies catastrophiques telles que la tuberculose, le sida, etc. affectent les dépenses d'hospitalisation. J'ai "par coût d'hospitalisation" comme variable dépendante et divers marqueurs individuels comme variables indépendantes, qui sont presque toutes factices comme le sexe, le statut de chef de ménage, le statut de pauvreté et bien sûr un mannequin pour savoir si vous avez la maladie (plus l'âge et l'âge au carré) et un tas de termes d'interaction.
Comme on pouvait s'y attendre, il y a une quantité importante - et je veux dire beaucoup - de données empilées à zéro (c'est-à-dire aucune dépense d'hospitalisation au cours de la période de référence de 12 mois). Quelle serait la meilleure façon de traiter de telles données?
À partir de maintenant, j'ai décidé de convertir le coût en ln(1+cost)
afin d'inclure toutes les observations, puis d'exécuter un modèle linéaire. Suis-je sur la bonne voie?