Comment prédire quand le prochain événement se produit, en fonction des heures des événements précédents?


19

Je suis un lycéen et je travaille sur un projet de programmation informatique, mais je n'ai pas beaucoup d'expérience en statistique et en modélisation de données au-delà d'un cours de statistique au lycée donc je suis un peu confus.

Fondamentalement, j'ai une liste raisonnablement longue (supposons qu'elle soit suffisamment grande pour répondre aux hypothèses de tout test ou mesure statistique) de fois où quelqu'un a décidé d'imprimer un document. Sur la base de cette liste, je voudrais construire un modèle statistique d'une sorte qui prédira le temps le plus probable pour le prochain travail d'impression compte tenu de tous les temps d'événement précédents.

J'ai déjà lu ceci , mais les réponses n'aident pas exactement ce que j'ai en tête pour mon projet. J'ai fait des recherches supplémentaires et j'ai découvert qu'un modèle de Markov caché me permettrait probablement de le faire avec précision, mais je ne trouve pas de lien sur la façon de générer un modèle de Markov caché en utilisant simplement une liste de fois. J'ai également constaté que l'utilisation d'un filtre de Kalman sur la liste peut être utile mais, fondamentalement, j'aimerais obtenir plus d'informations à ce sujet auprès de quelqu'un qui les a réellement utilisés et connaît leurs limites et leurs exigences avant d'essayer quelque chose et d'espérer que cela fonctionne.

Merci beaucoup!


1
+1 C'est une question bien articulée et bien pensée, Ankush. J'espère que vous obtiendrez d'excellentes réponses. Bienvenue sur notre site!
whuber

Merci d'avoir corrigé le titre - je déplaçais les mots pour essayer de rendre les choses plus cohérentes et je suppose que j'ai fini par ne pas avoir de sens du tout! J'espère que quelqu'un possédant les connaissances appropriées pourra vous aider.
ankushg

Réponses:


10

Les modèles de Markov cachés s'appliqueraient si les données étaient des émissions aléatoires d'un modèle de Markov sous-jacent non observé; Je n'exclurais pas cela, mais cela ne semble pas être un modèle très naturel.

Je penserais aux processus ponctuels , qui correspondent bien à vos données particulières. Il y a beaucoup de travail sur la prévision des tremblements de terre (bien que je ne sache pas grand-chose à ce sujet) et même crime .

S'il y a beaucoup de personnes différentes qui impriment, et que vous voyez juste les temps mais pas les identités individuelles, un processus de Poisson pourrait bien fonctionner (la superposition de plusieurs processus ponctuels indépendants est approximativement Poisson), bien qu'il devrait être inhomogène (le la chance d'un point varie dans le temps): les gens sont moins susceptibles d'imprimer à 3h qu'à 15h.

Pour le modèle de processus de Poisson inhomogène , la clé serait d'obtenir une bonne estimation des chances d'un travail d'impression à un moment donné et un jour particulier.

Si ces heures d'impression sont destinées aux élèves dans une salle de classe, cela pourrait être assez délicat, car ils ne sont probablement pas indépendants et le processus de Poisson ne fonctionnerait pas bien.

Voici un lien vers un document sur la demande de crime.


Merci pour cela. Connaissez-vous un moyen de créer un modèle pour un processus ponctuel? Cela semble être le plus pertinent, mais je ne connais pas bien les statistiques, donc tout semble déroutant (Poisson vs Determinantal vs Cox?) Quand je lis wikipedia ...: - \
ankushg

@Unk - Je commencerais par faire quelques tracés des données. Quelle est la longueur de cette liste de temps d'impression?
Karl

Cela représente environ un an de données. Je vais faire quelques complots et vous faire savoir comment ça se passe.
ankushg

1

Sur la base de la prévision du temps probable à l'aide de statistiques de balayage bayésien multivarié (MBSS) pourrait être utile. Ce MBSS a l'avantage d'améliorer la rapidité et la précision de la détection d'événements.


Bienvenue sur le site, @Esan. Pouvez-vous en dire plus sur le MBSS, son fonctionnement et son utilité?
gung - Rétablir Monica
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.