Probabilité que des points uniformément aléatoires dans un rectangle aient une distance euclidienne inférieure à un seuil donné

Supposons que nous ayons $n$ points dans un rectangle avec lié $[0,a] \times [0,b]$ , et ces points sont uniformément répartis dans ce plan. (Je ne connais pas très bien les statistiques, donc je ne connais pas la différence entre choisir uniformément un nœud dans la zone $[0,a] \times [0,b]$ ou choisissez uniformément $x$ -axe de $[0,a]$ et $y$ -axe de $[0,b]$ indépendamment).

Étant donné un seuil de distance $d$ , Je voudrais peut-être connaître la probabilité que la distance euclidienne de deux points soit inférieure à $d$ , ou plus précisément, combien de paires de nœuds la distance sera inférieure à $d$ ?

Peut-être que la description suivante serait sans ambiguïté.

Permettez-moi de préciser ce problème. Donné $n$ nœuds et seuil $d$ . Celles-ci $n$ les points sont uniformément répartis dans un rectangle $[0,a] \times [0,b]$ . Indique une variable aléatoire $\xi$ comme le nombre de paires de points à distance $d$ . Trouver $E[\xi]$ .

probability distance

— zhouzhuojie
source

Vous devriez également parcourir les questions de math.SE , car j'en rappelle plusieurs connexes. Ils sont probablement étiquetés probability.

— Cardinal

Voici quelques-unes des questions dont je me souvenais avoir vu sur math.SE, mais aucune d'entre elles n'est tout à fait ce que vous demandez: ( 1 ) math.stackexchange.com/questions/64028 ( 2 ) math.stackexchange.com/questions/66777 ( 3 ) math.stackexchange.com/questions/101692 ( 4 ) math.stackexchange.com/questions/50775

— cardinal

Nous pouvons résoudre ce problème analytiquement en utilisant une certaine intuition géométrique et des arguments . Malheureusement, la réponse est assez longue et un peu compliquée.

Configuration de base

Commençons par définir quelques notations. Supposons que nous dessinons uniformément des points au hasard à partir du rectangle $[0,a] \times [0,b]$ . Nous supposons sans perte de généralité que $0 < b < a$ . Laisser $(X_1,Y_1)$ être les coordonnées du premier point et $(X_2,Y_2)$ être les coordonnées du deuxième point. Alors, $X_1$ , $X_2$ , $Y_1$ , et $Y_2$ sont mutuellement indépendants avec $X_i$ distribué uniformément sur $[0,a]$ et $Y_i$ distribué uniformément sur $[0,b]$ .

Considérez la distance euclidienne entre les deux points. C'est

D = \sqrt{(X_{1} - X_{2})^{2} + (Y_{1} - Y_{2})^{2}} =: \sqrt{Z_{1}^{2} + Z_{2}^{2}},

$D = \sqrt{(X_1-X_2)^2 + (Y_1-Y_2)^2} =: \sqrt{ Z_1^2 + Z_2^2} \> ,$ où

Z_{1} = | X_{1} - X_{2} |

$Z_1 = |X_1-X_2|$ et

Z_{2} = | Y_{1} - Y_{2} |

$Z_2 = |Y_1-Y_2|$ .

Distributions triangulaires

Depuis $X_1$ et $X_2$ sont des uniformes indépendants, alors $X_1 - X_2$ a une distribution triangulaire, d'où $Z_1 = |X_1 - X_2|$ a une distribution avec fonction de densité

f_{a} (z_{1}) = \frac{2}{a^{2}} (a - z_{1}), 0 < z_{1} < a .

$f_a(z_1) = \frac{2}{a^2}(a-z_1) ,\quad 0 < z_1 < a \> .$ La fonction de distribution correspondante est

F_{a} (z_{1}) = 1 - (1 - z_{1} / a)^{2}

$F_a(z_1) = 1 - (1-z_1/a)^2$ pour

0 \leq z_{1} \leq a

$0 \leq z_1 \leq a$ . De même,

Z_{2} = | Y_{1} - Y_{2} |

$Z_2 = |Y_1 - Y_2|$ a une densité

f_{b} (z_{2})

$f_b(z_2)$ et fonction de distribution

F_{b} (z_{2})

$F_b(z_2)$ .

Notez que depuis $Z_1$ est fonction uniquement des deux $X_i$ et $Z_2$ est fonction uniquement du $Y_i$ , puis $Z_1$ et $Z_2$ sont indépendants. La distance entre les points est donc la norme euclidienne de deux variables aléatoires indépendantes (avec des distributions différentes).

Le panneau de gauche de la figure montre la répartition des $X_1 - X_2$ et le panneau de droite montre $Z_1 = |X_1 - X_2|$ où $a = 5$ dans cet exemple.

Densités triangulaires

Quelques probabilités géométriques

Donc $Z_1$ et $Z_2$ sont indépendants et sont pris en charge sur $[0,a]$ et $[0,b]$ respectivement. Pour fixe $d$ , la fonction de distribution de la distance euclidienne est

P (D \leq d) = \iint_{{z_{1}^{2} + z_{2}^{2} \leq d^{2}}} f_{a} (z_{1}) f_{b} (z_{2}) d z_{1} d z_{2} .

$\renewcommand{\Pr}{\mathbb P}\newcommand{\rd}{\,\mathrm{d}} \Pr(D \leq d) = \iint_{\{z_1^2+z_2^2 \leq d^2\}} f_a(z_1) f_b(z_2) \rd z_1 \rd z_2 \> .$

Nous pouvons penser à cela géométriquement comme ayant une distribution sur le rectangle et considérant un quart de cercle de rayon . Nous aimerions connaître la probabilité qui se trouve à l' intersection de ces deux régions. Il y a trois possibilités différentes à considérer: $[0,a] \times [0,b]$ $d$

Région 1 (orange): . Ici, le quart de cercle se trouve complètement dans le rectangle. $0 \leq d < b$

Région 2 (rouge): . Ici, le quart de cercle coupe le rectangle le long des bords supérieur et inférieur. $b \leq d \leq a$

Région 3 (bleu): . Le quart de cercle coupe le rectangle le long des bords supérieur et droit. $a < d \leq \sqrt{a^2 + b^2}$

Voici une figure, où nous dessinons un exemple de rayon de chacun des trois types. Le rectangle est défini par , . La niveaux de gris dans le rectangle montre la densité où les zones sombres ont une densité plus élevée et les zones plus claires ont une densité plus faible. Cliquez sur la figure pour en ouvrir une version agrandie. $a = 5$ $b = 4$ $f_a(z_1) f_b(z_2) \rd z_1 \rd z_2$

Un peu de calcul laid

Pour calculer les probabilités, nous devons faire du calcul. Examinons tour à tour chacune des régions et nous verrons qu'une intégrale commune se formera. Cette intégrale a une forme fermée, bien qu'elle ne soit pas très jolie.

Région 1 : . $0 \leq d < b$

P (D \leq d) = \int_{0}^{d} \int_{0}^{\sqrt{d^{2} - y^{2}}} f_{b} (y) f_{a} (x) d x d y = \int_{0}^{d} f_{b} (y) \int_{0}^{\sqrt{d^{2} - y^{2}}} f_{a} (x) d x d y .

$\newcommand{\radius}{\sqrt{d^2 - y^2}} \Pr(D \leq d) = \int_0^d \int_0^{\radius} f_b(y) f_a(x) \rd x \rd y = \int_0^d f_b(y) \int_0^{\radius} f_a(x) \rd x \rd y \>.$

Maintenant, l'intégrale intérieure donne . Il nous reste donc à calculer une intégrale de la forme où dans ce cas de intérêt . L'antériorité de l'intégrale est $\frac{1}{a^2}\radius (2 a - \radius)$

G (c) - G (0) = \int_{0}^{c} (b - y) \sqrt{d^{2} - y^{2}} (2 a - \sqrt{d^{2} - y^{2}}) d y,

$G(c) - G(0) = \int_0^c (b - y) \radius (2a - \radius) \rd y \> ,$

c = d

$c = d$

\begin{aligned} G (y) & = \int (b - y) \sqrt{d^{2} - y^{2}} (2 a - \sqrt{d^{2} - y^{2}}) d y \\ = \frac{a}{3} \sqrt{d^{2} - y^{2}} (y (3 b - 2 y) + 2 d^{2}) \\ + a b d^{2} \tan^{- 1} (\frac{y}{\sqrt{d^{2} - y^{2}}}) - b d^{2} y \\ + \frac{b y^{3}}{3} + \frac{(d y)^{2}}{2} - \frac{y^{4}}{4} . \end{aligned}

$\begin{align*} G(y) &= \int (b - y) \radius (2a - \radius) \rd y \\ &= \frac{a}{3} \radius ( y (3 b - 2 y) + 2 d^2) \\ &\quad + \,a b d^2 \tan^{-1}\Big(\frac{y}{{\scriptstyle \radius}}\Big) - b d^2 y \\ &\quad + \,\frac{b y^3}{3} + \frac{(d y)^2}{2} - \frac{y^4}{4} \> . \end{align*}$

On en déduit que . $\Pr(D \leq d) = \frac{2}{a^2 b^2} (G(d) - G(0))$

Région 2 : . $b \leq d \leq a$

P (D \leq d) = \frac{2}{a^{2} b^{2}} (G (b) - G (0)),

$\Pr(D \leq d) = \frac{2}{a^2 b^2} (G(b) - G(0)) \>,$ selon le même raisonnement que pour la Région 1, sauf que maintenant nous devons intégrer le long de l' axe jusqu'à au lieu de simplement .

y

$y$

b

$b$

d

$d$

Région 3 : . $a < d \leq \sqrt{a^2 + b^2}$

\begin{aligned} P (D \leq d) & = \int_{0}^{\sqrt{d^{2} - a^{2}}} f_{b} (y) d y + \int_{\sqrt{d^{2} - a^{2}}}^{b} f_{b} (y) \int_{0}^{\sqrt{d^{2} - y^{2}}} f_{a} (x) d x d y \\ = F_{b} (\sqrt{d^{2} - a^{2}}) + \frac{2}{a^{2} b^{2}} (G (b) - G (\sqrt{d^{2} - a^{2}})) \end{aligned}

$\begin{align*} \Pr(D \leq d) &= \int_0^\sqrt{d^2-a^2} f_b(y)\rd y + \int_{\sqrt{d^2-a^2}}^b f_b(y) \int_{0}^\radius f_a(x) \rd x \rd y \\ &= F_b(\sqrt{d^2-a^2}) + \frac{2}{a^2 b^2} (G(b) - G(\sqrt{d^2-a^2})) \end{align*}$

Ci-dessous est une simulation de 20000 points où nous traçons la distribution empirique sous forme de points gris et la distribution théorique sous forme de ligne, colorée en fonction de la région particulière qui s'applique.

Cdf empirique et théorique

À partir de la même simulation, nous traçons ci-dessous les 100 premières paires de points et dessinons des lignes entre eux. Chacun est coloré en fonction de la distance entre la paire de points et dans quelle région cette distance se situe.

Échantillon aléatoire de points

Le nombre attendu de paires de points dans la distance est simplement par linéarité de l'espérance. $d$

E [ξ] = (\binom{n}{2}) P (D \leq d),

$\mathbb E[\xi] = {n \choose 2} \Pr(D \leq d) \>,$

— cardinal
source

+1. Bon travail! Ce serait merveilleux de voir la réponse exprimée en termes de propriétés géométriques intrinsèques du rectangle: cela devrait dépendre de choses comme sa superficie, son périmètre et la configuration des quatre angles. (La littérature - que j'ai vue référencée mais à laquelle je n'ai pas eu accès - semble se concentrer sur des domaines avec des frontières lisses.)

— whuber

Merci. Voilà une excellente suggestion. Je vais essayer de faire de telles simplifications et reformulations.

— Cardinal

@cardinal Très beau travail! J'ai été surpris que vous ayez bien répondu au problème, même avec le cdf détaillé. Merci.

— zhouzhuojie

Si les points sont vraiment uniformément distribués, c'est-à-dire dans un motif connu fixe, alors pour n'importe quelle distance d, vous pouvez simplement boucler sur toutes les paires et compter celles à l'intérieur de la distance. Votre probabilité est (ce nombre / n).

Si vous avez la liberté supplémentaire de choisir comment les n points sont distribués / sélectionnés, alors c'est la version rectangulaire du paradoxe de Bertrand . Cette page montre un certain nombre de façons de répondre à cette question en fonction de la façon dont vous distribuez vos points.

— cape1232
source

La question porte sur la distribution des points iid uniformément distribués: ce sont des variables aléatoires, pas un "motif connu fixe", et on ne peut pas simplement boucler sur des paires d'entre elles!

— whuber

Je pense que vous avez peut-être mal compris la question du PO. De plus, la distribution souhaitée est définie sans ambiguïté dans la question. Mon commentaire à l'OP laisse entendre qu'il existe déjà une solution sur le réseau SE à cette question, donc celle-ci peut très probablement être fermée. :)

— cardinal

Êtes-vous sûr qu'il existe une solution sur math.SE, cardinal? Il s'agit d'un problème difficile en raison des effets de bord. Il y a peut-être une solution sur le tore plat.

— whuber

@whuber: Une solution? Non, mais je suis presque certain que cette question apparaît. :) Je vais voir si je peux le trouver. En tout cas, je ne suis pas sûr que ce problème soit si difficile, même dans ce cas. Je pense que vous pouvez utiliser l'invariance de traduction pour simplifier quelque peu. Mais, je n'ai pas travaillé sur les détails.

— Cardinal

@cardinal Merci. En fait, j'ai parcouru toutes les questions sur Math.SE, mais je ne pouvais toujours pas en trouver près de ce problème.

— zhouzhuojie