Déterminer le seuil optimal de la règle de décision binaire à partir d'observations avec des antérieurs inconnus?


8

Étant donné uniquement les observations d'un signal binaire perturbé par le bruit gaussien avec des informations préalables inconnues, comment puis-je estimer le seuil de décision optimal?

(Non, ce n'est pas une question de devoirs)

Plus précisément, je pense au modèle suivant: Y est un état à deux (H0,H1) Variable aléatoire :

  • P(Y|H0)N(μ0,σ)
  • P(Y|H1)N(μ1,σ),μ0<μ1
  • P(H0)=π0
  • P(H1)=1π0

avec des paramètres inconnus :μ0,μ1,σ,π0.

Le seuil de vraisemblance maximale a posteriori pourrait être calculé à partir de ces paramètres si je les connaissais. Je pensais à l'origine à la façon d'estimer les paramètres en premier afin d'atteindre le seuilYt. Mais je pense qu'il peut être plus robuste d'estimer directementYt.

Réflexions: Normaliser les observations (soustraire la moyenne de l'échantillon et diviser par l'écart-type) réduit l'espace des paramètres en 2 dimensions: π0 et σμ1μ0.


Ce problème serait beaucoup plus facile si vous pouviez supposer que Pi0 était 0,5. :-)
Jim Clay

Cette question pourrait-elle être quelque peu liée à celles-ci: stackoverflow.com/questions/1504378/… ou stackoverflow.com/questions/5451089/…
hotpaw2

Une séquence d'apprentissage d'observations est-elle disponible pour estimer les moyennes, les variances, etc.? Ou vous donne-t-on simplement une séquence de données dans laquelle certaines valeurs proviennent deH0 et certains de H1mais vous ne savez pas lequel est lequel?
Dilip Sarwate

Réponses:


6

Mon intuition est qu'il serait difficile de déterminer le bon seuil de décision que vous vous attendez à trouver:

τ=12(μ0+μ1)σ2μ0μ12logπ1π(μ0μ1)

A partir des statistiques globales que vous envisagez (moyenne d'échantillon: πμ0+(1π)μ1; écart type: expression plus complexe mais je doute que cela impliquerait un log).

J'aborderais le problème de cette façon:

  1. Si l'hypothèse que σ est petit peut être fait

    Je le mentionne, car gardez à l'esprit que le seuil de décision est affecté par π seulement si σest suffisamment élevé pour permettre aux deux classes de se chevaucher. Si laμs sont éloignés de plus de quelques-uns σ, les probabilités a priori de classe n'ont rien à dire dans le processus de décision!

    • Exécutez k-means sur vos observations (σest petit et est partagé par les deux classes, donc k-means est dans ce cas EM pour le modèle de mélange). Si vous voulez simplement binariser ces observations et aucune autre donnée, vous pouvez vous arrêter ici.
    • Si vous avez de nouvelles observations à binariser et que vous savez qu'elles sont générées par le même processus, vous pouvez utiliser les centroïdes de classe trouvés par k-means sur vos données d'entraînement comme estimations de μet utilisez le milieu comme seuil de décision.
  2. Si aucune hypothèse σ peut être fait

    • Exécutez l'algorithme EM (avec une covariance diagonale groupée) sur vos données d'entraînement. Utilisez les variables "d'appartenance à une classe souple" inférées pour binariser vos observations.
    • Calculer le seuil de décision τ à partir des paramètres donnés par EM pour binariser les nouvelles données générées par le même processus.

2

Pour résumer, vous avez deux distributions avec des paramètres inconnus et une mesure qui peut provenir de l'un ou l'autre processus stochastique. Ceci est généralement désigné comme un problème d'association de données et il est très courant et largement étudié au sein de la communauté de suivi. Vous pourriez envisager d'utiliser un filtre d'association de données de probabilité (PDAF) ou un algorithme de suivi multi-hypothèses (MHT). Cela devrait vous fournir des estimations de la moyenne et de la variance pour chaque distribution.
Alternativement, puisque votre bruit est blanc et gaussien, les ML, MAP et MMSE sont tous équivalents et peuvent être trouvés en minimisant l'erreur quadratique moyenne (fonction de coût), comme cela est effectivement décrit par la réponse précédente. J'utiliserais une approche de programmation dynamique pour trouver le minimum de la fonction de coût. Cela devrait être moins complexe (sur le plan informatique) que les méthodes EM / clustering décrites précédemment. Encore un commentaire: le PDAF est récursif. Étant donné le modèle de signal simple, il devrait fonctionner très efficacement et à ce que j'attends, c'est une fraction de la complexité de calcul de l'algorithme EM. Bonne chance, -B


1

Il existe un algorithme du milieu des années 1980 de Kittler et Illingworth appelé «Minimum Error Thresholding» qui résout ce problème pour les distributions gaussiennes. Récemment, Mike Titterington (Université de Glasgow) et JH Xue (maintenant à l'UCL) ont mis cela dans un cadre statistique plus formel, voir leurs publications de revues conjointes.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.