Quelques questions sur l'aléatoire statistique

De la statistique aléatoire de Wikipédia :

Le hasard global et le hasard local sont différents. La plupart des conceptions philosophiques du caractère aléatoire sont globales, car elles sont basées sur l'idée que "à long terme", une séquence semble vraiment aléatoire, même si certaines sous-séquences ne semblent pas aléatoires. Dans une séquence "véritablement" aléatoire de nombres de longueur suffisante, par exemple, il est probable qu'il y aurait de longues séquences de rien d'autre que des zéros, bien que dans l'ensemble la séquence puisse être aléatoire. Le caractère aléatoire local fait référence à l'idée qu'il peut y avoir des longueurs de séquence minimales dans lesquelles les distributions aléatoires sont approximées.De longues étendues des mêmes chiffres, même ceux générés par des processus "vraiment" aléatoires, diminueraient le "caractère aléatoire local" d'un échantillon (il ne pourrait être localement aléatoire que pour des séquences de 10 000 chiffres; prendre des séquences de moins de 1 000 pourrait ne pas sembler aléatoire du tout, par exemple).

Une séquence présentant un motif ne se révèle donc pas aléatoire statistiquement. Selon les principes de la théorie de Ramsey, des objets suffisamment grands doivent nécessairement contenir une sous-structure donnée ("un désordre complet est impossible").

Je ne comprends pas très bien la signification des deux phrases en gras.

La première phrase signifie-t-elle que quelque chose rend une séquence aléatoire locale à une longueur plus longue, et non aléatoire locale à une longueur plus courte?

Comment fonctionne l'exemple entre parenthèses?
La deuxième phrase signifie-t-elle qu'une séquence présentant un motif ne peut pas être prouvée comme n'étant pas statistiquement aléatoire? Pourquoi?

Merci

mathematical-statistics random-generation

— Tim
source

bonne question. Je trouve ce texte un peu déroutant. J'aurais pensé que le fait qu'une séquence soit aléatoire ou non est lié à la façon dont elle est générée; pas quel est le résultat. Je soupçonne qu'il y a un problème linguistique ici - pour moi, aléatoire signifie comment il est généré; pour le bon sens (et peut-être les philosophes moins lucides?) il s'agit de quelque chose qui semble désordonné?

— Peter Ellis

@Peter, vous pourriez avoir du mal à définir le caractère aléatoire si vous pouviez vous référer uniquement au mécanisme de génération. En fin de compte, parce que toute l'utilité des séquences aléatoires réside dans les nombres qu'elles contiennent - et non dans la façon dont ces nombres ont été produits - il doit y avoir un moyen de définir et de tester l'aléatoire uniquement en termes de séquences, vous ne pensez pas?

— whuber

Je suis certainement d'accord que vous pouvez tester le caractère aléatoire à partir de ses résultats - pour la plausibilité du caractère aléatoire, sans aspirer à en prouver la preuve. J'ai probablement besoin de lire et de réfléchir davantage sur les défis philosophiques d'une définition basée sur la génération.

— Peter Ellis

Je pense que le hasard n'est qu'un synonyme d'inconnu. Moi aussi, je trouve cette phrase bizzare

— probabilités

Dilbert

— Henry

Réponses:

Le concept peut être parfaitement illustré par du code exécutable. Nous commençons (en R) en utilisant un bon générateur de nombres pseudo aléatoires pour créer une séquence de 10 000 zéros et uns:

set.seed(17)
x <- floor(runif(10000, min=0, max=2))

Cela passe quelques tests de base de nombres aléatoires. Par exemple, un t-test pour comparer la moyenne à a une p-valeur de %, ce qui nous permet d'accepter l'hypothèse selon laquelle les zéros et les uns sont également probables. $1/2$ $40.09$

De ces nombres, nous procédons à l'extraction d'une sous-séquence de valeurs successives à partir de la 5081e valeur: $1000$

x0 <- x[1:1000 + 5080]

Si ceux-ci doivent paraître aléatoires, ils doivent également passer les mêmes tests de nombres aléatoires. Par exemple, testons si leur moyenne est 1/2:

> t.test(x0-1/2)

    One Sample t-test

data:  x0 - 1/2 
t = 2.6005, df = 999, p-value = 0.009445
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 0.01006167 0.07193833 
sample estimates:
mean of x 
    0.041

La faible valeur de p (moins de 1%) suggère fortement la moyenne est significativement plus grande que . En effet, la somme cumulée de cette sous-séquence a une forte tendance à la hausse: $1/2$

> plot(cumsum(x0-1/2))

Marche aléatoire?

Ce n'est pas un comportement aléatoire!

La comparaison de la séquence originale (tracée comme une somme cumulative) à cette sous-séquence révèle ce qui se passe:

Marche aléatoire

$9000$

Comme l'ont montré ces analyses simples, aucun test ne peut "prouver" qu'une séquence apparaît aléatoire. Tout ce que nous pouvons faire est de tester si les séquences s'écartent suffisamment des comportements attendus des séquences aléatoires pour prouver qu'elles ne sont pas aléatoires. C'est ainsi que fonctionnent les batteries de tests à nombres aléatoires : elles recherchent des modèles très peu susceptibles de se produire dans des séquences de nombres aléatoires. De temps en temps, ils nous amèneront à conclure qu'une séquence de nombres vraiment aléatoire n'apparaît pas aléatoire: nous la rejetterons et essayerons autre chose.

À long terme, cependant - tout comme nous sommes tous morts - tout générateur de nombres vraiment aléatoires générera toutes les séquences possibles de 1000 chiffres, et il le fera infiniment de fois. Ce qui nous sauve d'un dilemme logique, c'est que nous devrions attendre énormément de temps pour qu'une telle aberration apparente se produise.

— whuber
source

Merci! Une question connexe: lors du test du caractère aléatoire des nombres pseudo-aléatoires générés par certaines méthodes, le caractère aléatoire signifie-t-il une distribution uniforme? En d'autres termes, les tests de hasard ne visent-ils qu'à tester des distributions uniformes? J'ai posé cette question parce que ces distributions plus biaisées me semblent moins aléatoires intuitivement.

— Tim

@Tim: non, il existe de nombreux tests communs pour l'aléa gaussien, et il devrait être possible de construire des tests pour n'importe quelle distribution.

— naught101

[0, 1)

$[0,1)$

Je peux presque "regarder" en haut de la réponse et dire "Whuber" :) Très bien!

— PhD

Cet extrait utilise les termes «caractère aléatoire local» et «caractère aléatoire global» pour distinguer ce qui peut se produire avec un nombre fini d'échantillons d'une variable aléatoire et la distribution de probabilité ou l'attente d'une variable aléatoire.

$x_i$ $\{0,1\}$ $\theta$ $\theta$ $\lim_{n \to \infty} \frac{1}{n} \sum_{i=1}^n x_i = \theta$

$[0,1]$ $[a,b]$ $0 \leq a < b \leq 1$ $\theta$

Rien de nouveau ici.

$n$

Ainsi, je ne brûlerais pas trop de cellules cérébrales en pensant à cet extrait. Ce n'est pas mathématique si précis et est en fait trompeur sur la nature de l'aléatoire.

Modifier en fonction du commentaire: @kjetilbhalvorsen +1 à votre commentaire pour la connaissance historique. Cependant, je pense toujours que la valeur de ces termes est limitée et trompeuse. Les tableaux que vous décrivez semblent donner à penser que de petits échantillons qui ont, par exemple, un échantillon loin de la valeur réelle attendue ou peut-être une longue séquence improbable mais certainement possible de 0 répétés (dans mon exemple de Bernoulli), présentent en quelque sorte moins de hasard (en disant qu'ils ne présentent pas ce faux "hasard local"). Je ne vois rien de plus trompeur pour le statisticien en herbe!

— Chris A.
source

Bien que le «caractère aléatoire mondial» semble idiosyncrasique, le «caractère aléatoire local» a au moins une histoire de 20 ans. Voir isiweb.ee.ethz.ch/papers/arch/umaure-mass-inspec-1991-1.pdf , par exemple.

— whuber

n

$n$

n

$n$

Je me souviens avoir lu parfois ceci: à l'époque où les gens publiaient des livres avec des tableaux de «nombres aléatoires» à utiliser pour la simulation, l'expérimentation, etc., certains d'entre eux avaient marqué des parties des tableaux comme pouvant être utilisées dans de petites simulations (présentant randomness ") et d'autres parties qui ne devraient être utilisées que pour des simulations plus importantes (présentant un" random random "). Les concepts semblent donc indiquer quelque chose de précieux!

— kjetil b halvorsen

Désolé, je ne me souviens pas où j'ai lu ceci. Mais c'est presque évident: indépendamment des problèmes philosophiques de définition de l'aléatoire, si vous avez de très petites simulations où vous avez besoin de 1000 nombres aléatoires et que votre générateur aléatoire de haute qualité vous donne 1000 zéros, ¿Que faites-vous? Malgré le fait que de telles occurrences soient possibles et même nécessaires dans une séquence "vraiment aléatoire", votre simulation est ruinée!

— kjetil b halvorsen

Merci les gars, j'étais peut-être trop sévère dans ma condamnation. Je vais changer un peu la langue de ceci.

— Chris A.

-1

Je pense que les auteurs de l'article de Wikipedia interprètent mal le hasard. Oui, il peut y avoir des étirements qui ne semblent pas être aléatoires, mais si le processus qui a créé la séquence est vraiment aléatoire, il doit en être de même pour la sortie. Si certaines séquences semblent non aléatoires, c'est une perception erronée du lecteur (c'est-à-dire que les humains sont conçus pour trouver des modèles). Notre capacité à voir la Grande Ourse et Orion, etc. dans le ciel nocturne n'est pas une preuve que les motifs des étoiles ne sont pas aléatoires. Je suis d'accord que le hasard semble souvent non aléatoire. Si un processus génère des modèles vraiment non aléatoires pour de courtes séquences, ce n'est pas un processus aléatoire.

Je ne pense pas que le processus change à différentes tailles d'échantillon. Vous augmentez la taille de l'échantillon, vous augmentez la probabilité que nous voyions une séquence aléatoire qui nous semble non aléatoire. S'il y a 10% de chances que nous voyions un modèle dans 20 observations aléatoires, augmenter le nombre total d'observations à 10000 augmenterait la probabilité que nous voyions la non-aléatoire, quelque part.

— P auritus
source

"Si un processus génère des modèles vraiment non aléatoires pour de courtes séquences, ce n'est pas un processus aléatoire" est, je le crains, tout à fait incorrect. Par exemple, dans n'importe quel 100 tours d'une pièce de monnaie équitable, nous nous attendrions à observer six têtes ou six queues d'affilée - et c'est un "modèle vraiment non aléatoire pour [une] séquence courte" selon presque tout le monde qui veut dire "aléatoire". " Je soupçonne que vous vouliez écrire quelque chose qui doit être plus soigneusement qualifié, comme appliquer "tous" avant "de courtes séquences".

— whuber

Vraiment? J'aurais pensé que, puisque l'on s'attend à voir des chaînes de têtes de queues d'un générateur de nombres aléatoires, que lorsque nous le voyons, nous ne devrions pas être surpris. Pourquoi le considérer comme non aléatoire? Si l'on avait un générateur de nombres qui faisait 100 flips, et qu'il évitait délibérément 4 têtes ou queues ou plus d'affilée, il aurait l' air plus aléatoire qu'un processus vraiment aléatoire, mais ce serait en fait non aléatoire. Une vision naïve de l'aléatoire est l'absence de tous les modèles - mais ce ne serait pas aléatoire.

— P auritus

Votre commentaire est correct, mais l'exposé dans votre réponse n'est pas clair et même contradictoire sur ce point. Pensez à expliquer plus précisément ce que vous entendez par générer des «modèles vraiment non aléatoires pour de courtes séquences», par exemple, ou ce que signifie «voir la non-aléatoire».

— whuber

Je ne vois aucune contradiction. Vous semblez penser que les générateurs aléatoires créent des modèles non aléatoires. Voilà la contradiction. Vous faites valoir que des processus vraiment aléatoires généreront des observations non aléatoires. Ce que vous décrivez est quelquefois appelé "l'illusion de clustering", qui est la tendance à percevoir incorrectement les clusters à partir de distributions aléatoires. Tout ce que je dis, c'est que si un processus crée des observations non aléatoires, il n'est pas aléatoire. Vous soutenez que vous vous attendez à ce qu'un processus aléatoire crée des chaînes d'observations non aléatoires, mais vous appelez cela non aléatoire. Exemple classique d'Apophenia.

— P auritus

Il est difficile de poursuivre une conversation avec un interlocuteur qui déforme sa position, je vais donc me retirer de celui-ci. Pardon.

— whuber