Voilà une question intéressante. Mon groupe de recherche utilise la distribution à laquelle vous faites référence depuis quelques années dans notre logiciel de bioinformatique accessible au public. Pour autant que je sache, la distribution n'a pas de nom et il n'y a pas de littérature à ce sujet. Bien que l'article de Chandra et al (2012) cité par Aksakal soit étroitement lié, la distribution qu'ils considèrent semble être limitée aux valeurs entières pour et ils ne semblent pas donner une expression explicite pour le pdf.r
Pour vous donner quelques informations, la distribution NB est très largement utilisée dans la recherche génomique pour modéliser les données d'expression génique issues de l'ARN-seq et des technologies connexes. Les données de comptage surviennent lorsque le nombre de lectures de séquences d'ADN ou d'ARN extraites d'un échantillon biologique qui peuvent être mappées à chaque gène. En règle générale, des dizaines de millions de lectures de chaque échantillon biologique sont mappées à environ 25 000 gènes. Alternativement, on pourrait avoir des échantillons d'ADN à partir desquels les lectures sont mappées aux fenêtres génomiques. Nous et d'autres avons popularisé une approche par laquelle NB glms est ajusté aux lectures de séquence pour chaque gène, et des méthodes empiriques de Bayes sont utilisées pour modérer les estimateurs de dispersion de même (dispersionϕ = 1 / r). Cette approche a été citée dans des dizaines de milliers d'articles de revues dans la littérature génomique, de sorte que vous pouvez avoir une idée de la quantité utilisée.
Mon groupe maintient le progiciel edgeR R. Il y a quelques années, nous avons révisé l'ensemble du package afin qu'il fonctionne avec des décomptes fractionnaires, en utilisant une version continue du NB pmf. Nous avons simplement converti tous les coefficients binomiaux du NB pmf en ratios de fonctions gamma et l'avons utilisé comme pdf continu (mixte). La raison en était que les comptages de lecture de séquence peuvent parfois être fractionnaires en raison de (1) la cartographie ambiguë des lectures au transcriptome ou au génome et / ou (2) la normalisation des comptages pour corriger les effets techniques. Les dénombrements sont donc parfois des dénombrements attendus ou estimés plutôt que des dénombrements observés. Et bien sûr, le nombre de lectures peut être exactement nul avec une probabilité positive. Notre approche garantit que les résultats d'inférence de notre logiciel sont continus dans les dénombrements, correspondant exactement aux résultats NB discrets lorsque les dénombrements estimés se trouvent être des nombres entiers.
Pour autant que je sache, il n'y a pas de forme fermée pour la constante de normalisation dans le pdf, ni de forme fermée pour la moyenne ou la variance. Quand on considère qu'il n'y a pas de forme fermée pour l'intégrale
(la constante de Fransen-Robinson), il est clair qu'il ne peut y en avoir pour l'intégrale du continu NB pdf non plus. Cependant, il me semble que les formules traditionnelles de moyenne et de variance pour le NB devraient continuer d'être de bonnes approximations pour le NB continu. De plus, la constante de normalisation devrait varier lentement avec les paramètres et peut donc être ignorée comme ayant une influence négligeable dans les calculs du maximum de vraisemblance.
∫∞01Γ ( x )réz
On peut confirmer ces hypothèses par intégration numérique. La distribution NB apparaît en bioinformatique comme un mélange gamma de distributions de Poisson (voir l' article binomial négatif de Wikipedia ou McCarthy et al ci-dessous). La distribution NB continue résulte simplement du remplacement de la distribution de Poisson par son analogue continu par pdf
pour où est une constante de normalisation pour garantir que la densité s'intègre à 1. Supposons par exemple que . La distribution de Poisson a pmf égale au pdf ci-dessus sur les entiers non négatifs et, avec
F( x ; λ ) = a ( λ ) e- λλXΓ ( x + 1 )
x ≥ 0a ( λ )λ = 10λ = 10, la moyenne et la variance de Poisson sont égales à 10. L'intégration numérique montre que et la moyenne et la variance de la distribution continue sont égales à 10 à environ 4 chiffres significatifs. Ainsi, la constante de normalisation est pratiquement 1 et la moyenne et la variance sont presque exactement les mêmes que pour la distribution de Poisson discrète. L'approximation est encore améliorée si nous ajoutons une correction de continuité, intégrant de à au lieu de 0. Avec la correction de continuité, tout est correct (la constante de normalisation est 1 et les moments sont en accord avec le Poisson discret) à environ 6 les chiffres.
a ( 10 ) = 1 / 0,999875- 1 / deux∞
Dans notre package edgeR, nous n'avons pas besoin de faire d'ajustement pour le fait qu'il y a une masse à zéro, car nous travaillons toujours avec des log-vraisemblances conditionnelles ou avec des différences de log-vraisemblance et toutes les fonctions delta annulent les calculs. C'est BTW typique pour glms avec des distributions de probabilité mixtes. Alternativement, nous pourrions considérer que la distribution n'a pas de masse à zéro mais un support commençant à -1/2 au lieu de zéro. L'une ou l'autre perspective théorique conduit aux mêmes calculs dans la pratique.
Bien que nous utilisions activement la distribution NB continue, nous n'avons rien publié explicitement à ce sujet. Les articles cités ci-dessous expliquent l'approche NB des données génomiques, mais ne discutent pas explicitement de la distribution continue NB.
En résumé, je ne suis pas surpris que l'article que vous étudiez ait obtenu des résultats raisonnables à partir d'une version continue du pdf NB, car c'est aussi notre expérience. La principale exigence est que nous devons modéliser correctement les moyennes et les variances et ce sera bien à condition que les données, entières ou non, présentent la même forme de relation quadratique moyenne-variance que la distribution NB.
Les références
Robinson, M. et Smyth, GK (2008). Estimation sur petit échantillon de la dispersion binomiale négative, avec applications aux données SAGE . Biostatistics 9, 321-332.
Robinson, MD et Smyth, GK (2007). Tests statistiques modérés pour évaluer les différences d'abondance des étiquettes . Bioinformatics 23, 2881-2887.
McCarthy, DJ, Chen, Y, Smyth, GK (2012). Analyse d'expression différentielle des expériences ARN-Seq multifactorielles en ce qui concerne la variation biologique . Nucleic Acids Research 40, 4288-4297.
Chen, Y, Lun, ATL et Smyth, GK (2014). Analyse d'expression différentielle des expériences complexes d'ARN-seq utilisant edgeR. Dans: Statistical Analysis of Next Generation Sequence Data, Somnath Datta et Daniel S Nettleton (eds), Springer, New York, pages 51--74. Préimpression
Lun, ATL, Chen, Y et Smyth, GK (2016). C'est DE-licious: une recette pour des analyses d'expression différentielle des expériences d'ARN-seq en utilisant des méthodes de quasi-vraisemblance dans edgeR. Méthodes en biologie moléculaire 1418, 391-416. Préimpression
Chen Y, Lun ATL et Smyth, GK (2016). Des lectures aux gènes en passant par les voies: analyse d'expression différentielle des expériences RNA-Seq utilisant Rsubread et le pipeline de quasi-vraisemblance edgeR . F1000 Recherche 5, 1438.