Un CDF à partir de données peut-il se croiser avec un autre CDF

8

Étant donné deux ensembles de données de nombres réels positifs X et Y, tous deux de la même taille et 0 <= Y <= X pour chaque ligne; le CDF empirique de X peut-il jamais croiser le CDF empirique de Y?

distributions cdf

— sheppa28
source

4

Le cdf empirique, est la proportion de l'échantillon à ou en dessous de . $\hat{F}(t)$ $t$

Pensez à ordonner vos lignes en augmentant (et à une valeur fixe de , en ordonnant en augmentant ). $y$ $y$ $x$

Ensuite, pour chacune de ces lignes (ligne , disons), la hauteur de chaque cdf est *, et l'abscisse correspondante pour l'échantillon x est toujours à droite de l'abscisse pour l'échantillon y. Les fonctions pas à pas peuvent coïncider, mais l'ecdf de l'échantillon x ne sera jamais au-dessus / à gauche de l'ecdf de l'échantillon y. $i$ $i/n$

entrez la description de l'image ici

En effet, imaginez que nous "dessinions sur l'intrigue" tous les sauts verticaux dans l'ecdf. Ensuite, une ligne horizontale tracée à travers le tracé à une certaine valeur de frappera les étapes ecdf à une valeur particulière de et qui apparaît dans notre tableau répertoriant les valeurs d'échantillon dans l'ordre (en effet, pour une valeur donnée de , il est facile de déterminer quelle ligne ce sera ), qui a toujours . $F$ $y$ $x$ $F$ $^\dagger$ $y_i\leq x_i$

* (c'est un peu plus compliqué quand il y a des valeurs en double, mais pas d'une manière qui change substantiellement l'argument)

$\dagger$ Pour la ligne horizontale grise dans le graphique ( ), il frappe les sauts verticaux de l'ecdf à et qui se produisent dans la 73e ligne du tableau de données lorsqu'ils sont triés comme indiqué précédemment. $F\approx 0.481$ $t_y=194.4503$ $t_x=200.0431$

— Glen_b -Reinstate Monica
source

2

La réponse de Glen_b est correcte, mais je pense qu'il existe un moyen encore plus simple de le démontrer.

L'eCDF est un tracé de ( , proportion de valeurs égales ou inférieures à ). Nous commençons par trier les valeurs par ordre croissant: appelez-les et . De plus, d'après votre question, nous savons que les deux vecteurs sont de même longueur et pour chaque indice . $x$ $x$ $x_1, x_2, \ldots, x_n$ $y_1, y_2, \ldots, y_n$ $y_i \ge x_i$ $i$

Étant donné que est supérieur ou égal à , doit être situé à ou à droite de et, comme ce sont les plus petits points de la liste, ils ont tous les deux une hauteur / coordonnée y de . Les deux courbes montent au même rythme ( par pas) et vers la droite. Cependant, puisque , la courbe se déplace au moins aussi à droite que la courbe à chaque pas. $y_1$ $x_1$ $y_1$ $x_1$ $\frac{1}{n}$ $\frac{1}{n}$ $y_i > x_i$ $Y$ $X$

Puisque la courbe commencé à droite ou à droite de la courbe et que chaque mise à jour subséquente pousse au moins aussi à droite que , les courbes ne se croisent jamais. $Y$ $X$ $Y$ $X$

— Matt Krause
source

0

Formalisez simplement ce qui a été écrit ci-dessus:

Si les CDF impériaux sont écrits respectivement comme et , alors $F_X$ $F_Y$

$F_X(x) = \frac{1}{n} \sum_{x_i} I(x_i \leq x)$ et de même . $F_Y(x) = \frac{1}{n} \sum_{y_i} I(y_i \leq x)$

Maintenant, pour tout , nous pouvons montrer que . Prouvez cela par contradiction - Supposons qu'il y ait un où cela ne tient pas et montrez qu'il doit y avoir une paire pour laquelle . $x$ $I(x_i \leq x) \leq I(y_i \leq x)$ $x$ $(x_i, y_i)$ $y_i > x_i$

Ainsi, pour tout . $F_X(x) \leq F_Y(x)$ $x$

Remarque: Il existe certaines hypothèses implicites dans cette démonstration que le nombre de points de données est fini. Je suppose qu'il est possible d'avoir des ensembles de données infinis de la même taille (c'est-à-dire la cardinalité). Je suis assez certain que le résultat est vrai, mais beaucoup moins certain de la preuve d'un tel résultat.

— Jonathan
source

Avec une infinité de points de données, comment définiriez-vous exactement un CDF empirique?

— whuber