Cadrer la distribution binomiale négative pour le séquençage de l'ADN

16

La distribution binomiale négative est devenue un modèle populaire pour les données de comptage (en particulier le nombre attendu de lectures de séquençage dans une région donnée du génome d'une expérience donnée) en bioinformatique. Les explications varient:

Certains l'expliquent comme quelque chose qui fonctionne comme la distribution de Poisson mais qui a un paramètre supplémentaire, permettant plus de liberté pour modéliser la vraie distribution, avec une variance pas nécessairement égale à la moyenne
Certains l'expliquent comme un mélange pondéré de distributions de Poisson (avec une distribution de mélange gamma sur le paramètre de Poisson)

Existe-t-il un moyen de concilier ces logiques avec la définition traditionnelle d'une distribution binomiale négative comme modélisation du nombre de succès des essais de Bernoulli avant de constater un certain nombre d'échecs? Ou devrais-je simplement considérer cela comme une heureuse coïncidence qu'un mélange pondéré de distributions de Poisson avec une distribution de mélange gamma a la même fonction de masse de probabilité que le binôme négatif?

— Michael Hoffman
source

2

Il s'agit également d'une distribution de Poisson composée où vous additionnez un nombre de variables aléatoires logarithmiques distribuées par Poisson.

— Douglas Zare

8

IMOH, je pense vraiment que la distribution binomiale négative est utilisée pour plus de commodité.

Donc, dans l'ARN Seq, il y a une hypothèse courante que si vous prenez un nombre infini de mesures du même gène dans un nombre infini de répliques, alors la vraie distribution serait lognormale. Cette distribution est ensuite échantillonnée via un processus de Poisson (avec un comptage) de sorte que la vraie distribution se lit par gène à travers les répétitions serait une distribution Poisson-Lognormal.

Mais dans les packages que nous utilisons tels que EdgeR et DESeq, cette distribution est modélisée comme une distribution binomiale négative. Ce n'est pas parce que les gars qui l'ont écrit ne connaissaient pas une distribution Poisson Lognormale.

C'est parce que la distribution Lognormale de Poisson est une chose terrible à travailler car elle nécessite une intégration numérique pour faire les ajustements, etc. donc lorsque vous essayez de l'utiliser, les performances sont parfois très mauvaises.

Une distribution binomiale négative a une forme fermée, il est donc beaucoup plus facile de travailler avec et la distribution gamma (la distribution sous-jacente) ressemble beaucoup à une distribution lognormale en ce qu'elle semble parfois normale et a parfois une queue.

Mais dans cet exemple (si vous croyez l'hypothèse), il ne peut pas être théoriquement correct parce que la distribution théoriquement correcte est la lognormale de Poisson et les deux distributions sont des approximations raisonnables l'une de l'autre mais ne sont pas équivalentes.

Mais je pense toujours que la distribution binomiale négative "incorrecte" est souvent le meilleur choix car, empiriquement, elle donnera de meilleurs résultats car l'intégration fonctionne lentement et les ajustements peuvent mal fonctionner, en particulier avec les distributions à longue queue.

— Michele
source

7

$r$ $\alpha$ $\beta$

$r$

$\frac{\alpha}{\alpha+\beta}$ $\text{NB}(r,\frac{\alpha}{\alpha+\beta})$
$t_r$ $r$ $\Gamma(r,1/\beta).$ $t_r = \lambda/\alpha$ $t_r$ $\text{Pois}(\lambda).$ $r$

Cela explique pourquoi ces distributions sont égales.

— Douglas Zare
source

2

Je ne peux qu'offrir de l'intuition, mais la distribution gamma elle-même décrit les temps d'attente (continus) (combien de temps faut-il pour qu'un événement rare se produise). Ainsi, le fait qu'un mélange distribué gamma de distributions discrètes de poisson se traduise par un temps d'attente discret (essais jusqu'à N échecs) ne semble pas trop surprenant. J'espère que quelqu'un a une réponse plus formelle.

Edit: j'ai toujours justifié la dist binomiale négative. pour le séquençage comme suit: L'étape de séquençage réelle consiste simplement à échantillonner des lectures à partir d'une grande bibliothèque de molécules (poisson). Cependant, cette bibliothèque est réalisée à partir de l'échantillon d'origine par PCR. Cela signifie que les molécules d'origine sont amplifiées de façon exponentielle. Et la distribution gamma décrit la somme de k variables aléatoires indépendantes distribuées de façon exponentielle, c'est-à-dire combien de molécules dans la bibliothèque après avoir amplifié k molécules d'échantillons pour le même nombre de cycles de PCR.

D'où les modèles binomiaux négatifs PCR suivis de séquençage.

— Felix Schlesinger
source

Cela a du sens, mais dans le contexte de la mesure du nombre de lectures de séquençage dans un génome, existe-t-il une explication intuitive de ce que représente la période d'attente dans la distribution binomiale négative? Dans ce cas, il n'y a pas de période d'attente - il mesure simplement le nombre de lectures de séquençage.

— RobertF

Voir mon montage. Je ne vois pas comment le penser en termes de temps d'attente correspond au paramètre de séquençage. Le mélange gamma poisson est plus facile à interpréter. Mais au final, c'est la même chose.

— Felix Schlesinger

2

Ok - alors peut-être la vraie question est de savoir par quelle coïncidence la modélisation k succès + r échecs dans les essais de Bernoulli suit un mélange gamma Poisson? Peut-être qu'une modélisation binomiale négative k succès + r échecs peut être considérée comme un dbn de Poisson sur-dispersé en raison des nombreuses permutations possibles des essais de réussite et d'échec résultant en exactement k succès observés et r échecs observés, qui peut être décrit comme un ensemble de dbns séparés?

— RobertF

2

Je vais essayer de donner une interprétation mécaniste simpliste que j'ai trouvée utile en y réfléchissant.

$\mu$ $p$ $\mu\frac{1-p}{p}$ $NB(\mu\frac{1-p}{p}, p)$

$\mu\frac{1-p}{p}\frac{p}{1-p} = \mu$ $\sigma^2 = \mu(1-p)^{-1}$

$(1-p)^{-1}$

— Pièces Léopold
source