Contexte: Je suis un biostatisticien aux prises avec un ensemble de données sur les taux d'expression cellulaire. L'étude a exposé une foule de cellules, collectées en groupes de divers donneurs, à certains peptides. Les cellules expriment certains biomarqueurs en réponse, ou elles ne le font pas. Les taux de réponse sont ensuite enregistrés pour chaque groupe de donneurs. Les taux de réponse (exprimés en pourcentages) sont le résultat d'intérêt et l'exposition aux peptides est le prédicteur.
Notez que les observations sont regroupées au sein des donateurs.
Comme je n'ai que les données récapitulatives, je traite les taux de réponse par donneur comme des données continues (au moins pour l'instant).
La complication vient du fait que j'ai beaucoup de zéros dans mes données. Beaucoup trop pour être ignoré. J'envisage un modèle gamma gonflé à zéro pour faire face au fait que j'ai biaisé les données continues couplées à une surabondance de zéros. J'ai également considéré le modèle Tobit, mais cela semble inférieur car il suppose une censure à une limite inférieure, par opposition aux vrais zéros (les économétriciens pourraient dire que la distinction est théorique).
Question: De manière générale, quand est-il approprié d'utiliser un modèle gamma gonflé à zéro? Autrement dit, quelles sont les hypothèses? Et comment interpréter ses inférences? Je serais reconnaissant pour les liens vers des articles qui en discutent, si vous en avez.
J'ai trouvé un lien sur SAS-L dans lequel Dale McLerran fournit le code NLMIXED pour un modèle gamma gonflé à zéro, donc cela semble possible. Néanmoins, je détesterais charger à l'aveuglette.