S'il vous plaît expliquer le paradoxe de l'attente


75

Il y a quelques années, j'ai conçu un détecteur de rayonnement qui fonctionne en mesurant l'intervalle entre les événements plutôt qu'en les comptant. Mon hypothèse était que, lors de la mesure d'échantillons non contigus, je mesurerais en moyenne la moitié de l'intervalle réel. Cependant, lorsque j'ai testé le circuit avec une source calibrée, la lecture était un facteur deux trop élevé, ce qui signifiait que j'avais mesuré l'intervalle complet.

Dans un vieux livre sur les probabilités et les statistiques, j'ai trouvé une section sur quelque chose appelé "Le paradoxe de l'attente". Il présentait un exemple dans lequel un bus arrive à son arrêt toutes les 15 minutes et un passager arrive au hasard. Il indique que le passager attendrait en moyenne les 15 minutes complètes. Je n'ai jamais été capable de comprendre les maths présentées avec l'exemple et de continuer à chercher une explication. Si quelqu'un peut expliquer pourquoi c'est pour que le passager attende tout l'intervalle, je dormirai mieux.


1
Quel est le titre et qui est l'auteur du livre? Pourriez-vous copier l'exemple mot à mot ici?
Joel Reyes Noche

Ce n'est pas ma spécialité, mais le paradoxe mentionné par l'OP est-il identique au paradoxe de l' inspection ?
Joel Reyes Noche


1
Il semble que ma supposition ci-dessus a un certain soutien. Un commentaire à cette réponse mentionne le paradoxe de l'inspection.
Joel Reyes Noche

2
Je pense que l'utilisation d'un bus comme analogie est source de confusion, car les bus ont tendance à suivre les horaires. Pensez plutôt au temps qu'il faudra à un taxi vide pour venir en moyenne un toutes les 15 minutes.
Harvey Motulsky

Réponses:


48

Comme Glen_b l'a fait remarquer, si les bus arrivent toutes les minutes sans aucune incertitude , nous savons que le temps d'attente maximum possible est de 15 minutes. Si de notre côté nous arrivons "au hasard", nous pensons que nous attendrons "en moyenne" la moitié du temps d'attente maximum possible . Et le temps d'attente maximum possible est ici égal à la longueur maximum possible entre deux arrivées consécutives. Notons notre temps d’attente W et la longueur maximale entre deux arrivées consécutives d’autobus R , et nous affirmons que1515WR

(1)E(W)=12R=152=7.5

et nous avons raison.

Mais tout à coup, la certitude nous est enlevée et on nous dit que minutes est maintenant la moyenne entre deux arrivées de bus. Et nous tombons dans le "piège de la pensée intuitive" et pensons: "il suffit de remplacer R par la valeur attendue", et nous discutons15R

(2)E(W)=12E(R)=152=7.5FAUX

Une première indication que nous nous trompons est que n'est pas "longueur entre deux arrivées consécutives de bus", mais " longueur maximale , etc.". Ainsi , dans tous les cas, nous avons que E ( R ) 15RE(R)15 .

Comment en sommes-nous arrivés à l'équation ? Nous avons pensé: "le temps d'attente peut aller de 0 à 15 maximum(1)015 . J'arrive avec une probabilité égale dans tous les cas, donc je" choisis "au hasard et avec une probabilité égale tous les temps d'attente possibles. Par conséquent, la moitié de la longueur maximale entre deux arrivées consécutives temps d'attente moyen ". Et nous avons raison.

Mais en insérant par erreur la valeur dans l'équation ( 2 ) , elle ne reflète plus notre comportement. Avec 15 à la place de E ( R ) , l’équation ( 2 ) indique "Je choisis au hasard et avec une probabilité égale tous les temps d’attente possibles qui sont inférieurs ou égaux à la durée moyenne entre deux arrivées consécutives de bus ". erreur mensongère, car notre comportement n’a pas changé - donc, en arrivant aléatoirement de manière uniforme, nous «choisissons toujours en réalité« au hasard et avec une probabilité égale »tous les temps d’attente possibles - mais« tous les temps d’attente possibles » ne sont pas capturés par15(2)15E(R)(2)15 - nous avons oublié la fin de la répartition des longueurs entre deux arrivées consécutives d’autobus.

Alors peut-être devrions-nous calculer la valeur attendue de la longueur maximale entre deux arrivées consécutives d’autobus, est-ce la bonne solution?

Oui, cela pourrait être le cas, mais : le "paradoxe" spécifique va de pair avec une hypothèse stochastique spécifique: les arrivées de bus sont modélisées par le processus de référence de Poisson, ce qui signifie que nous supposons en conséquence que le temps-longueur entre deux arrivées de bus consécutives suivent une distribution exponentielle. On note cette longueur, et nous l' avons

F()=λe-λ,λ=1/15,E()=15

Ceci est approximatif bien sûr, puisque la distribution exponentielle a un support illimité de droite, ce qui signifie que, à proprement parler, "tous les temps d’attente possibles" englobent, dans cette hypothèse de modélisation, des magnitudes importantes et importantes allant jusqu’à "l'infini", mais avec une probabilité décroissante. .

Mais attendez, l’exponentielle n’a plus de mémoire : peu importe à quel moment nous arriverons, nous sommes confrontés à la même variable aléatoire , indépendamment de ce qui s’est passé auparavant.

Compte tenu de cette hypothèse stochastique / distributionnelle, tout point dans le temps fait partie d'un "intervalle entre deux arrivées de bus consécutives" dont la longueur est décrite par la même distribution de probabilité avec la valeur attendue (et non la valeur maximale) : "Je suis ici, je suis Entouré par un intervalle entre deux arrivées de bus, certaines de ses longueurs appartiennent au passé et d'autres à l'avenir, mais je n'ai aucun moyen de savoir combien et combien, alors je ne peux que demander, quelle est sa durée prévue - quel sera mon temps d'attente moyen? " - Et la réponse est toujours " 15 ", hélas. 1515


+1 très bien. devrait peut - être lire f λ ( ) ? F()Fλ()
Amibe dit de réintégrer Monica

FX(y)

80

Si le bus arrive "toutes les 15 minutes" (c'est-à-dire selon un horaire), l'attente moyenne du passager (qui arrive au hasard) n'est en effet que de 7,5 minutes, car elle sera uniformément répartie dans cet intervalle de 15 minutes.

-

Si, en revanche, le bus arrive au hasard au rythme moyen de 4 par heure (c’est-à-dire selon un processus de Poisson), alors l’attente moyenne est beaucoup plus longue; en effet, vous pouvez le résoudre via le manque de propriété de mémoire. Prenez l’arrivée du passager comme point de départ et le temps pour le prochain événement est exponentiel avec une moyenne de 15 minutes.

Permettez-moi de prendre une analogie en temps discret. Imaginez que je lance un dé avec 15 faces, dont l’une est étiquetée "B" (pour le bus) et 14 étiquetées "X" pour l’absence totale de bus cette minute (il existe des dés réels à 30 faces , je pourrais donc en étiqueter 2 faces d’un dé à 30 faces "B"). Donc, une fois par minute je roule et vois si le bus vient. Le dé n'a pas de mémoire; il ne sait pas combien de rouleaux ont été enregistrés depuis le dernier "B". Maintenant, imaginez qu’un événement non lié se produise - un chien aboie, un passager arrive, j’entends un grondement de tonnerre. A partir de maintenant, combien de temps dois-je attendre (combien de rouleaux) pour le prochain "B"?

En raison du manque de mémoire, j'attends en moyenne le même "B" suivant la même heure que l'intervalle entre deux "B" consécutifs.

[Ensuite, imaginez que j'ai un dé à 60 faces que je lance toutes les quinze secondes (encore une fois, avec un visage "B"); Maintenant, imaginez que j’ai eu un dé à 1000 faces que j’ai lancé toutes les 0,9 seconde (avec une face "B"; ou plus réaliste, trois dés à 10 faces chacune et j’appelle le résultat un "B" si les 3 montent tous "10" à en même temps) ... et ainsi de suite. Dans la limite, on obtient le processus de Poisson en temps continu.]

tt

En tant que vétéran des autobus, la réalité semble se situer quelque part entre "les bus arrivent selon un horaire" et "les bus arrivent au hasard". Et parfois (en cas de trafic insuffisant), vous attendez une heure puis vous arrivez tous en même temps (Zach en explique la raison dans les commentaires ci-dessous).


6
Je pense qu'avec les bus en particulier, il y a un processus supplémentaire dans lequel un bus en retard devient plus tard lorsque les passagers s'entassent dessus, et le bus vide derrière se rattrape finalement (mais reste vide). = D
Zach

4
@Zach en effet, c'est pourquoi ils ont tendance à s'agglutiner sur les longues distances, en particulier dans les endroits très fréquentés. J'habite là où l'autobus fonctionne si tard qu'il est temps de prendre le prochain autobus. Ils insèrent parfois un autobus supplémentaire, presque à l'heure, le long de la route (c.-à-d. Qu'il conduira sans passager jusqu'à un autobus qui ne serait pas très loin derrière programme, en empruntant souvent un itinéraire plus rapide) et commencez à prendre des passagers pour lesquels le bus n’est plus qu’en retard. Pendant ce temps, le bus très tardif devient désormais le prochain bus de l'horaire une fois qu'il est arrivé là où l'autre bus est entré.
Glen_b

@Glen_b C'est une très bonne idée, hah!
Zach

C'est une stratégie anti-agglomération utile (au moins, elle atténue les pires cas); Je n'en aurais pas parlé, sauf que cela concerne le type de problèmes de dépendance que des modèles plus précis de temps d'attente de bus pourraient devoir traiter.
Glen_b

10

Plus d'informations sur les bus ... Désolé de prendre part à la conversation si tard dans la discussion, mais je me suis penché sur les processus de Poisson récemment ... Donc, avant que cela ne me perde la tête, voici une représentation imagée du paradoxe de l' inspection :

Cette erreur découle de l’hypothèse selon laquelle les bus suivent un certain schéma d’arrivée avec un temps moyen donné entre les arrivées (l’inverse du paramètre du taux de Poisson λθ=1/λ=15

Si nous étions dans un centre de répartition et que nous pouvions voir tous les bus sur un écran, il serait vrai que le fait de prendre plusieurs bus au hasard et d'établir une moyenne de la distance qui le séparait produirait le temps moyen entre les arrivées:

entrez la description de l'image ici

Mais, si au lieu de cela, nous nous présentons à la gare routière (au lieu de choisir un bus), nous effectuons une série aléatoire de temps, par exemple, le long de la chronologie de l'horaire des bus dans une matinée typique. Le temps que nous décidons de nous présenter à la gare routière peut très bien être uniformément réparti le long de la "flèche" du temps. Cependant, étant donné que les intervalles de temps entre les bus sont de plus en plus espacés, nous risquons de sur-échantillonner ces "retardataires":

entrez la description de l'image ici

... et par conséquent, notre journal des temps d'attente ne reflétera pas l'heure entre les arrivées. C'est le paradoxe de l'inspection.

En ce qui concerne la question sur le PO concernant le temps d’attente prévu de 15θ=15

E[temps d'attente (futur) + heure du dernier départ du bus (passé)]=30


entrez la description de l'image ici


Toujours pas clair? - essayez avec Legos .


Excellents diagrammes.
Glen_b

2

Il existe une explication simple qui résout les différentes réponses que l’on obtient en calculant le temps d’attente prévu pour les bus arrivant selon un Processus de Poisson avec un temps interarrêt moyen donné (dans ce cas 15 minutes), dont les temps interarrivés sont donc exponentiels avec une moyenne de 15 minutes .

Méthode 1 ) Le processus de Poisson (exponentiel) étant dépourvu de mémoire, le temps d'attente attendu est de 15 minutes.

Méthode 2 ) Vous êtes également susceptible d'arriver à n'importe quel moment de la période interarrivale au cours de laquelle vous arrivez. Par conséquent, le temps d’attente prévu correspond à la moitié de la durée prévue de cette période interarrêt. THIS EST CORRECT et n'entre pas en conflit avec la méthode (1).

Comment (1) et (2) les deux peuvent-ils être corrects? La réponse est que la durée prévue de la période interarrival pour l'heure à laquelle vous arrivez n'est pas de 15 minutes. C'est en fait 30 minutes; et 1/2 de 30 minutes est 15 minutes, donc (1) et (2) d’accord.

Pourquoi la période interarrivée pour le moment de votre arrivée n’est-elle pas égale à 15 minutes? C'est parce que, en "fixant" d'abord une heure d'arrivée, la période interarrivale dans laquelle il se trouve est plus susceptible que la moyenne d'être une longue période interarrivière. Dans le cas d'une période interarrivante exponentielle, le calcul fonctionne de manière à ce que la période interarrivale contenant l'heure à laquelle vous arrivez est une exponentielle avec un temps interarrival moyen du double de celui du processus de Poisson.

Il n'est pas évident que la distribution exacte pour la période interarrivale contenant l'heure à laquelle vous arrivez soit exponentielle à moyenne doublée, mais il est évident, après explication, pourquoi elle est augmentée. Comme exemple facile à comprendre, supposons que les durées interarrivées soient de 10 minutes avec une probabilité de 1/2 ou 20 minutes avec une probabilité de 1/2. Dans ce cas, des périodes interarrivales de 20 minutes sont tout aussi probables que des périodes interarrival de 10 minutes, mais lorsqu'elles surviennent, elles durent deux fois plus longtemps. Ainsi, les 2/3 des points de la journée seront à des moments où la période interarrivée est de 20 minutes. En d'autres termes, si nous choisissons d'abord une heure et que nous voulons ensuite savoir quelle est l'heure interarrivale contenant cette heure, alors (en ignorant les effets transitoires au début du "jour" ) la durée prévue de cette interarrival est de 16 1/3. Mais si nous choisissons d’abord l’heure interarrivée et que nous voulons savoir quelle est sa durée prévue, le temps est de 15 minutes.

Il existe d’autres variantes du paradoxe du renouvellement, de l’échantillonnage biaisé en longueur, etc., qui s’apparentent à peu près à la même chose.

Exemple 1) Vous avez plusieurs ampoules à durée de vie aléatoire, mais moyenne de 1000 heures. Lorsqu'une ampoule tombe en panne, elle est immédiatement remplacée par une autre ampoule. Si vous choisissez l'heure à laquelle vous irez dans une pièce où se trouve l'ampoule, celle-ci fonctionnera alors avec une durée de vie moyenne supérieure à 1000 heures.

Exemple 2) Si nous nous rendons sur un chantier de construction à un moment donné, le délai moyen jusqu'à ce qu'un ouvrier du bâtiment qui y travaille à ce moment-là tombe du bâtiment (à partir du moment où ils ont commencé à travailler) est plus long que le délai moyen jusqu'au travailleur tombe (à partir du moment où ils ont commencé à travailler) parmi tous les travailleurs qui commencent à travailler. Pourquoi, parce que les travailleurs avec un temps moyen court jusqu’à tomber, ont plus de chances que la moyenne d’être déjà tombés (et de ne pas continuer à travailler), de sorte que les travailleurs qui travaillent ont alors des temps plus longs que la moyenne jusqu’à tomber.

Exemple 3) Choisissez un nombre modeste de personnes au hasard dans une ville et si elles ont assisté aux matchs à domicile (pas tous vendus) de l'équipe de baseball de la Ligue majeure de la ville, déterminez combien de personnes ont assisté aux matchs auxquels elles ont assisté. Ensuite (selon certaines hypothèses légèrement idéalisées mais pas trop déraisonnables), la participation moyenne à ces matchs sera supérieure à la fréquentation moyenne de tous les matchs à domicile de l'équipe. Pourquoi? Parce que plus de personnes ont assisté aux jeux à forte assiduité qu'aux jeux à faible assiduité, vous êtes donc plus susceptible de choisir des personnes ayant assisté à des jeux à forte assiduité que des jeux à faible assiduité.


0

La question posée était "... un bus arrive à son arrêt toutes les 15 minutes et un passager arrive au hasard." Si le bus arrive toutes les 15 minutes, alors ce n'est pas aléatoire; il arrive toutes les 15 minutes, la réponse correcte est donc de 7,5 minutes. Soit la source a été citée à tort ou l'auteur de la source a été négligé.

D'autre part, le détecteur de rayonnement semble poser un problème différent, car les événements de rayonnement arrivent au hasard en fonction d'une distribution donnée, probablement du type Poisson avec un temps d'attente moyen.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.