Utilisation et interprétation correctes des modèles gamma à gonflement nul


11

Contexte: Je suis un biostatisticien aux prises avec un ensemble de données sur les taux d'expression cellulaire. L'étude a exposé une foule de cellules, collectées en groupes de divers donneurs, à certains peptides. Les cellules expriment certains biomarqueurs en réponse, ou elles ne le font pas. Les taux de réponse sont ensuite enregistrés pour chaque groupe de donneurs. Les taux de réponse (exprimés en pourcentages) sont le résultat d'intérêt et l'exposition aux peptides est le prédicteur.

Notez que les observations sont regroupées au sein des donateurs.

Comme je n'ai que les données récapitulatives, je traite les taux de réponse par donneur comme des données continues (au moins pour l'instant).

La complication vient du fait que j'ai beaucoup de zéros dans mes données. Beaucoup trop pour être ignoré. J'envisage un modèle gamma gonflé à zéro pour faire face au fait que j'ai biaisé les données continues couplées à une surabondance de zéros. J'ai également considéré le modèle Tobit, mais cela semble inférieur car il suppose une censure à une limite inférieure, par opposition aux vrais zéros (les économétriciens pourraient dire que la distinction est théorique).

Question: De manière générale, quand est-il approprié d'utiliser un modèle gamma gonflé à zéro? Autrement dit, quelles sont les hypothèses? Et comment interpréter ses inférences? Je serais reconnaissant pour les liens vers des articles qui en discutent, si vous en avez.

J'ai trouvé un lien sur SAS-L dans lequel Dale McLerran fournit le code NLMIXED pour un modèle gamma gonflé à zéro, donc cela semble possible. Néanmoins, je détesterais charger à l'aveuglette.

Réponses:


5

Tout d'abord, vous ne voyez pas de vrais zéros dans les données d'expression. Votre biologiste dit cela, comme tous les biologistes, mais quand un biologiste dit «c'est zéro», cela signifie en fait «c'est en dessous de mon seuil de détection, donc ça n'existe pas». C'est un problème de langue en raison du manque de sophistication mathématique dans le domaine. Je parle d'expérience personnelle ici.

L'explication du Gamma gonflé zéro dans le lien que vous fournissez est excellente. Le processus physique menant à vos données est, si je comprends bien, un donneur est sélectionné, puis traité avec un certain peptide, et la réponse est mesurée à partir des cellules de ce donneur. Il y a quelques couches ici. L'un est la force globale de la réponse du donneur, qui alimente le niveau d'expression de chaque cellule particulière mesurée. Si vous interprétez votre variable de Bernoulli dans le Gamma gonflé à zéro comme "la réponse du donateur est suffisamment forte pour mesurer", alors cela pourrait être bien. Notez simplement que dans ce cas, vous regroupez le bruit de l'expression de chaque cellule avec la variation entre les donneurs qui répondent fortement. Étant donné que le bruit d'expression dans une seule cellule est à peu près distribué gamma,

Si la variation supplémentaire entre les donneurs et les cellules ne perturbe pas votre ajustement Gamma, et que vous essayez simplement d'obtenir l'expression par rapport au peptide appliqué, alors il n'y a aucune raison pour que cela ne soit pas correct.

Si une analyse plus détaillée est en ordre, alors je recommanderais de construire un modèle hiérarchique personnalisé pour correspondre au processus menant à vos mesures.


3

J'ai trouvé une solution que je trouve plutôt élégante. Il existe un excellent article dans la littérature intitulé "Analyse des données de mesures répétées avec agglutination à zéro" qui démontre un modèle lognormal gonflé à zéro pour les données corrélées. Les auteurs fournissent une macro SAS basée sur PROC NLMIXED et assez facile à implémenter. La bonne nouvelle est que cela peut être simplifié pour les cas sans observations groupées par omission de l' repeatedinstruction dans la macro. La mauvaise nouvelle est que NLMIXED ne possède pas encore les nombreuses structures de corrélation dont nous avons souvent besoin, comme l'autorégressif.

La macro s'appelle MIXCORR et possède une page Wiki très utile que vous pouvez trouver ici . La macro elle-même peut être téléchargée ici .

Je recommande fortement tous ces liens. J'espère que vous les trouverez utiles.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.