Mécanique derrière l'écart de la distribution aléatoire

Le système sur lequel nous travaillons est biologique, plus précisément la distribution des événements programmés de dommages à l'ADN à travers un chromosome. Cela peut être considéré comme un réseau 1D (le chromosome) à travers lequel des points peuvent être choisis (les sites de dommages intentionnels). Nous avons cartographié les positions de ces événements expérimentalement et nous avons d'abord demandé s'ils correspondaient à une distribution aléatoire - c'est-à-dire que des dommages peuvent survenir à n'importe quel point le long du chromosome avec une chance égale et que les sites de dommages donnés sont indépendants les uns des autres. En générant des distributions aléatoires sur MATLAB (randi), cela s'est avéré ne pas être le cas.

En analysant les distances inter-points (IPD) des données réelles et modélisées, les données réelles sont vues comme ne s'écartant d'une distribution aléatoire qu'en dessous d'une certaine taille d'IPD, avant de rejoindre la distribution aléatoire au-dessus d'elle, c'est-à-dire qu'il y a moins IPD plus courts que ce à quoi on pourrait s'attendre par hasard dans les données réelles.

entrez la description de l'image ici

Exemples de résultats IPD:

entrez la description de l'image ici

Red = random modelled distribution
Blue = real data
Y-axis = IPD size (log-scale)
X-axis = IPD number (IPDs are just plotted in numerical order)

Les IPD sont tracés ici sur un axe Y logarithmique et simplement en ordre croissant comme s'il s'agissait d'un histogramme. Comme vous pouvez le voir ci-dessous une certaine taille IPD (axe Y), la ligne bleue s'écarte de la ligne rouge.

L'hypothèse que nous testons (qui a une base biologique solide) est que la position d'un événement dépend de ceux déjà formés. Plus précisément, dès qu'un site est choisi, il invoque une zone de répression autour de lui, ce qui rend la région environnante moins susceptible d'être choisie comme site suivant. Cela permet d'espacer efficacement les événements et explique l'absence d'IPD plus courts. Cette zone diminue progressivement en intensité à mesure que vous vous éloignez d'un point choisi - expliquant le retour à l'indépendance au-dessus d'une certaine distance IPD.

entrez la description de l'image ici

Question : Existe-t-il une méthode mathématique permettant de dériver la forme de cette zone à partir des seuls ensembles de données aléatoires et réels? Par exemple, en calculant sa force (capacité à s'écarter du hasard) à chaque point donné jusqu'à ce que ses effets ne soient plus visibles?

La forme et l'échelle du triangle dans le diagramme ci-dessus est la principale chose que j'essaie d'obtenir (ce n'est pas nécessairement un triangle).

Nous avons un deuxième modèle qui simule cette hypothèse - et qui fournit des résultats prometteurs, mais nous avons besoin de conseils sur la forme, l'échelle, etc. de la zone de répression, sinon il s'agit plutôt d'essais et d'erreurs et plusieurs fenêtres + paramètres différents peuvent s'adapter.

J'ai déjà vu quelque chose de similaire fait auparavant en regroupant les IPD dans un histogramme, en ajustant une fonction de probabilité gamma puis en la convertissant en fonction de risque, mais je ne suis pas un mathématicien et je ne sais pas si c'est la bonne méthode ni comment s'y prendre. il.

Je travaille en grande partie dans MATLAB, donc si quelqu'un pouvait fournir de l'aide sous la forme de MATLAB, ce serait formidable - mais toute aide serait appréciée.

Données utilisées dans le graphique:

Real IPDs:

7126.5
11311.5
12582.25
21499
25429.25
28876.5
29178.5
35545.25
37498.75
37881.5
38152
45464
47372.5
48047.5
52397
55563
57100.75
59372
61640.5
63822.5
66672.25
67010
68969
69071.5
69680.75
70136
70228.25
75124
75487.5
76186.5
80091.5
80279
80727.75
83397.25
84412.25
84481
85453.5
85483.25
88821
88862.25
89089.5
90453.25
92416.25
96658
97369.75
98573.25
104459.5
105307.25
107716.5
113079.5
113357.75
113750.25
113848
114834.25
114871
114919.25
116882
116899.75
117400.75
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091

Modelled IPDs:

6309.250317
7485.019638
8691.132742
9875.024811
11093.9262
12328.9784
13540.43008
14760.67732
16018.67552
17243.509
18560.20364
19830.60355
21235.71334
22592.75188
23931.62058
25240.54551
26572.1846
27899.31413
29311.17773
30765.96211
32251.92515
33713.78512
35191.37822
36695.70116
38301.07903
39893.27382
41474.13555
43128.17872
44764.51525
46449.33501
48116.12259
49799.81561
51567.24913
53351.51996
55228.92877
57039.44196
58826.45323
60615.27354
62437.5259
64364.0891
66308.25836
68317.33777
70389.35974
72571.9451
74659.85927
76782.19429
79186.51912
81427.22249
83761.00059
86187.90023
88672.44356
91239.82722
93885.18499
96423.67933
99062.67598
101676.3844
104409.6901
107253.7768
110233.3544
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091

— AnnaSchumann
source

La méthode que vous avez suggérée est un moyen standard d'ajuster les distributions. Pour moi, il n'est pas clair si le temps est important pour vous ou non, bien qu'il semble que ce soit le cas, auquel cas vous pourriez avoir affaire à un processus non homogène. Ce sera plus délicat.

— mandata

Je ne suis pas sûr de bien comprendre ce que vous demandez au sujet du temps. Pourriez-vous élaborer?

— AnnaSchumann

"Cette zone se dissipe progressivement expliquant le retour à l'indépendance au-dessus d'une certaine distance IPD." Vous en souciez-vous?

— mandata

Pouvez-vous décrire un peu votre phénomène? Que mesurez-vous? De plus, il semble que par "aléatoire" vous entendez une certaine distribution que vous avez en tête. La variable peut être aléatoire mais issue d'une distribution différente, ce qui peut produire des queues plus fines que vous ne le pensez.

— Aksakal

@mandata Mes excuses - c'était mal formulé. Je l'ai mis à jour via une modification. Je voulais dire que l'intensité de la zone diminue progressivement à mesure que vous vous éloignez d'un point choisi - pas qu'elle se dissipe avec le temps.

— AnnaSchumann

Le problème est que vous avez supposé une certaine distribution aléatoire d'IPD et qu'elle ne correspond pas à la distribution empirique. Donc, la formulation de votre question est un peu déroutante compte tenu de l'explication que vous avez donnée jusqu'à présent. La «déviation» n'est pas due à l'aléatoire, mais à la distribution empirique de l'hypothèse théorique.

Vous générez des emplacements $x_i\sim U(0,1000)$ , où 0 et 1000 sont des bornes. Par conséquent, l'IPD est $\Delta x_i=|x_i-x_{i-1}|$ .

Nous pouvons trouver la probabilité inconditionnelle d'un petit IPD

P (Δ x_{i}) < ε

$P(\Delta x_i)<\varepsilon$ pour tout petit donné

ε > 0

$\varepsilon>0$ comme suit:

P (Δ x_{i}) < ε = \frac{ε}{500} - \frac{ε^{2}}{1, 000, 000}

$P(\Delta x_i)<\varepsilon=\frac{\varepsilon}{500}-\frac{\varepsilon^2}{1,000,000}$

Il s'agit d'une distribution particulière. Voici ses fonctions cumulatives et de densité: entrez la description de l'image ici

L'axe des x est IPD et l'axe des y est les fonctions de probabilité cumulative (gauche) et de densité (droite).

Comme vous pouvez voir votre choix de modèle (c'est-à-dire la fonction randi), cela implique que la probabilité d'une petite distance est assez élevée, beaucoup plus élevée que celle d'un grand IPD. Votre phénomène biologique ne correspond probablement pas à ce modèle. Vous devez essayer un autre modèle.

— Aksakal
source

Nous avons d'abord testé pour voir si nos distributions déterminées expérimentalement correspondaient ou non à une distribution aléatoire. Ils ne le font pas - et nous le savons. Nous essayons maintenant de formuler un nouveau modèle en utilisant l'hypothèse énoncée dans le PO (qui a une base biologique spécifique). Le principal problème que nous avons est que plusieurs combinaisons de formes / échelles pour la zone de répression correspondent aux données - et nous devons savoir laquelle est correcte, je demande donc s'il est possible de dériver la forme / échelle à partir des seuls ensembles de données.

— AnnaSchumann

@AnnaSchumann, recherchez une distribution qui a une densité pour la queue gauche inférieure à celle d'une distribution uniforme induite. Par exemple, si vous avez remarqué qu'il existe un mode dans la distribution des IPD, vous pouvez commencer par Poisson, Neg Binomial, Lognormal ou même normal juste pour voir si l'ajustement s'améliore.

— Aksakal

Merci! Je vais jeter un oeil maintenant. Quelles sont les étiquettes des axes sur les graphiques dans votre réponse ci-dessus? Je ne suis pas sûr de bien les comprendre.

— AnnaSchumann

@AnnaSchumann, a mis à jour la réponse

— Aksakal

Les probabilités de certaines tailles d'IPD ne dépendraient-elles pas du nombre de nombres choisis par randi à chaque itération? Dans notre système, nous avons généralement des limites assez grandes, mais nous ne choisirons peut-être que 3 à 5 sites d'événements. Existe-t-il un moyen de modéliser les distributions de probabilité pour différentes quantités de sites choisis?

— AnnaSchumann