Quelle statistique est utilisée pour déterminer la présence d'un signal dans le bruit?

C'est un problème de détecteur je crois:

Je suis perplexe devant ce qui semble être un problème simple. Fondamentalement, j'ai une bande d'intérêt. Si des énergies de signal existent dans cette bande d'intérêt, alors j'exécute l'opération X sur mon signal.

Mon problème est que je ne sais pas exactement comment procéder pour «décider» si un signal existe ou non. En cela, après avoir effectué une FFT, je peux rechercher des pics.

Mais maintenant quoi?

La statistique utilisée compare-t-elle habituellement ce pic à la moyenne environnante du spectre? Ou s'agit-il d'une autre statistique?
Quelle mesure statistique est-ce que j'utilise pour déterminer simplement si un signal est présent et aller à partir de là?
Comment définir cette valeur? Seuillage simple?

MODIFICATION Sur la base des commentaires:

Pour ce cas simple, je suppose un ton, dans un bruit blanc gaussien. Ce que j'essaie de comprendre, c'est:

Comment exactement a-t-on généré une courbe ROC . Doit-on d'abord étiqueter toutes les données, puis obtenir les taux vrais positifs et faux positifs pour une multitude de seuils?
Comment la diminution du SNR affecte-t-elle la courbe ROC? Le déplacer vers la diagonale?
Que fait la retenue adaptative à une courbe ROC donnée qui a été autrement générée sans seuil adaptatif?

3a. Quelles sont les techniques courantes de seuil adaptatif que je peux examiner qui sont courantes?

fft signal-detection

— Spacey
source

Souhaitez-vous un algorithme par lots (hors ligne) ou séquentiel (en ligne)? Avez-vous des statistiques sur le bruit et le signal (c.-à-d. Pouvez-vous caractériser le rapport de vraisemblance)? Si oui, avez-vous essayé d'utiliser un SPRT ?

— Emre

@Emre Il peut être hors ligne. Je ne suis pas vraiment sûr de ce que vous entendez par statistiques de signal / bruit, j'ai un capteur qui mesurera un signal (tonalité) en présence de bruit, et son SNR peut varier ...

— Spacey

Il veut dire: quelles sont les propriétés statistiques du bruit et du signal? Connaissez-vous la répartition du bruit? Qu'en est-il de la distribution du signal plus le bruit?

— Jason R

@JasonR je vois. Eh bien, le signal sera une tonalité, et le bruit est gaussien. Suis-je en train de manquer quelque chose?

— Spacey

Peut être. Gaussien blanc? Le fait est que pour l'analyser théoriquement, vous devez supposer un modèle de probabilité pour le bruit et le signal plus le bruit. Sur la base de cette réponse, vous pouvez le faire.

— Jason R

Réponses:

C'est l'un des problèmes de traitement du signal les plus anciens, et une forme simple est susceptible d'être rencontrée dans une introduction à la théorie de la détection. Il existe des approches théoriques et pratiques pour résoudre un tel problème, qui peuvent ou non se chevaucher en fonction de l'application spécifique.

$P_d$ $P_{fa}$

$P_d$ $P_{fa}$ $P_d = 1$ $P_{fa} = 0$ et appelez ça un jour. Comme vous pouvez également vous y attendre, ce n'est pas si simple. Il existe un compromis inhérent entre les deux mesures; généralement, si vous faites quelque chose qui améliore l'un, vous observerez une certaine dégradation dans l'autre.

Un exemple simple: si vous recherchez la présence d'une impulsion sur un fond de bruit, vous pouvez décider de définir un seuil quelque part au-dessus du niveau de bruit "typique" et décider d'indiquer la présence du signal d'intérêt si votre statistique de détection casse au-dessus du seuil. Vous voulez une probabilité de fausse alarme vraiment faible? Réglez le seuil haut. Mais alors, la probabilité de détection pourrait diminuer de manière significative si le seuil élevé est égal ou supérieur au niveau de puissance du signal attendu!

$P_d$ $P_{fa}$

entrez la description de l'image ici

Un détecteur idéal aurait une courbe ROC qui épouse le haut de la parcelle; c'est-à-dire qu'il pourrait fournir une détection garantie pour tout taux de fausse alarme. En réalité, un détecteur aura une caractéristique qui ressemble à celles tracées ci-dessus; l'augmentation de la probabilité de détection augmentera également le taux de fausses alarmes, et vice versa.

D'un point de vue théorique, ces types de problèmes se résument donc à sélectionner un certain équilibre entre les performances de détection et la probabilité de fausse alarme. La façon dont cet équilibre est décrit mathématiquement dépend de votre modèle statistique pour le processus aléatoire observé par le détecteur. Le modèle aura généralement deux états ou hypothèses:

H_{0} : aucun signal n'est présent

$H_0: \text{no signal is present}$

H_{1} : le signal est présent

$H_1: \text{signal is present}$

En règle générale, la statistique observée par le détecteur aurait l'une des deux distributions, selon laquelle l'hypothèse est vraie. Le détecteur applique ensuite une sorte de test qui est utilisé pour déterminer la véritable hypothèse et donc si le signal est présent ou non. Les distributions de la statistique de détection sont fonction du modèle de signal que vous choisissez en fonction de votre application.

Les modèles de signaux courants sont la détection d'un signal modulé en amplitude d'impulsion sur un fond de bruit gaussien blanc additif (AWGN) . Bien que cette description soit quelque peu spécifique aux communications numériques, de nombreux problèmes peuvent être associés à ce modèle ou à un modèle similaire. Plus précisément, si vous recherchez une tonalité à valeur constante localisée dans le temps sur un fond d'AWGN, et que le détecteur observe l'amplitude du signal, cette statistique aura une distribution de Rayleigh si aucune tonalité n'est présente et une distribution ricienne si une est présente.

Une fois qu'un modèle statistique a été développé, la règle de décision du détecteur doit être spécifiée. Cela peut être aussi compliqué que vous le souhaitez, en fonction de ce qui est logique pour votre application. Idéalement, vous voudriez prendre une décision qui est optimale dans un certain sens, en fonction de votre connaissance de la distribution de la statistique de détection dans les deux hypothèses, de la probabilité que chaque hypothèse soit vraie et du coût relatif de l'erreur dans l'une ou l'autre hypothèse ( dont je parlerai plus dans un peu). La théorie de la décision bayésienne peut être utilisée comme cadre pour aborder cet aspect du problème d'un point de vue théorique.

$T$ $T(t)$ $t$

$T$ $T=5$ $P_d = 0.9999$ $P_{fa} = 0.01$

Vous décidez finalement de vous asseoir sur la courbe de performance et c'est un paramètre de conception important. Le bon point de performance à choisir dépend du coût relatif des deux types de pannes possibles: est-il pire pour votre détecteur de manquer une occurrence du signal lorsqu'il se produit ou d'enregistrer une occurrence du signal lorsqu'il ne s'est pas produit? Un exemple: un détecteur de missile balistique fictif avec capacité de riposte automatique serait mieux servi pour avoir un taux d'alarme très faux; déclencher une guerre mondiale à cause d'une fausse détection serait regrettable. Un exemple de la situation inverse serait un récepteur de communication utilisé pour des applications de sécurité de la vie; si vous voulez avoir une confiance maximale qu'il ne manque pas de recevoir des messages de détresse,

— Jason R
source

Merci JasonR, très beau post. Je continue de digérer votre message, mais une question me vient à l'esprit. Comment cette courbe ROC est-elle générée exactement? Je comprends que je mesure le taux de vrais positifs et de faux positifs pour n'importe quel classificateur, et cela marque un point dans la courbe ROC. Alors qu'est-ce qui est changé de telle sorte que j'obtiens de nombreux points afin de pouvoir générer une courbe pour n'importe quel classificateur?

— Spacey

P_{d}

$P_d$

P_{f a}

$P_{fa}$

La statistique est le rapport de vraisemblance (LR), et le test est la comparaison du LR par rapport à un seuil. Si vous suivez la tradition de placer la probabilité de l'hypothèse nulle dans le dénominateur, vous décidez en faveur de l' hypothèse alternative ( contre l' hypothèse nulle ) si le LR est suffisamment élevé. Plus le ratio est élevé, plus votre confiance est grande. Il s'agit du test que vous effectuez si vous avez déjà collecté les données. Si vous souhaitez décider au fur et à mesure que les données arrivent pièce par pièce, vous pouvez utiliser un test séquentiel , comme SPRT .

À ce stade, vous pourriez bénéficier d'un livre sur les tests d'hypothèses ou la théorie de la décision (plus général).

— Emre
source