Généralement, les réseaux de neurones ne sont pas utilisés pour modéliser des densités de probabilité complètes. Leur objectif est de modéliser simplement la moyenne d'une distribution (ou dans une situation déterministe simplement une fonction non linéaire). Néanmoins, il est très possible de modéliser des densités de probabilité complètes via des réseaux de neurones.
Par exemple, pour un cas gaussien, une méthode simple consiste à émettre la moyenne d'une sortie et la variance d'une autre sortie du réseau, puis à minimiser la fonction dans le cadre de le processus de formation au lieu de l'erreur quadratique commune. C'est la procédure de vraisemblance maximale pour un réseau neuronal.−logN(y|x;μ,σ)
Une fois que vous entraînez ce réseau chaque fois que vous branchez une valeur en entrée, il vous donnera le et le , puis vous pouvez brancher le triplet entier à la densité pour obtenir la valeur de densité pour tout vous aimez. À ce stade, vous pouvez choisir la valeur à utiliser en fonction d'une fonction de perte de domaine réelle. Une chose à garder à l'esprit est que pour l'activation de sortie doit être illimitée afin que vous puissiez émettre vers tandis que doit être une activation positive uniquement.μ σ y , μ , σ f ( y | x ) ∼ N ( μ , σ ) y y μ - inf + inf σxμσy,μ,σf(y|x)∼N(μ,σ)yyμ−inf+infσ
En général, à moins que ce ne soit une fonction déterministe que nous recherchons, l'entraînement standard de perte au carré utilisé dans les réseaux de neurones est à peu près la même procédure que j'ai décrite ci-dessus. Sous le capot, une distribution est supposée implicitement sans se soucier du et si vous examinez attentivement vous donne une expression pour la perte au carré ( La fonction de perte de la probabilité maximale gaussienne estimateur ). Dans ce scénario, cependant, au lieu d'une valeur à votre goût, vous êtes obligé d'émettre chaque fois que vous donnez une nouvelle valeur .Gaussianσ−logN(y|x;μ,σ)yμx
Pour la classification, la sortie sera une distribution de au lieu d'une , qui a un seul paramètre à émettre. Comme spécifié dans l'autre réponse, ce paramètre est compris entre et sorte que l'activation de la sortie doit être en conséquence. Il peut s'agir d'une fonction logistique ou de quelque chose d'autre qui atteint le même objectif.BernoulliGaussian01
Les réseaux de densité de mélanges de Bishop sont une approche plus sophistiquée. Vous pouvez lire à ce sujet dans l'article fréquemment référencé ici:
https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf