S'excuse pour l'utilisation abusive des termes techniques. Je travaille sur un projet de segmentation sémantique via des réseaux de neurones convolutifs (CNN); essayer d'implémenter une architecture de type Encodeur-Décodeur, donc la sortie est de la même taille que l'entrée.
Comment concevez-vous les étiquettes? Quelle fonction de perte doit-on appliquer? Surtout dans la situation de fort déséquilibre des classes (mais le rapport entre les classes est variable d'une image à l'autre).
Le problème concerne deux classes (objets d'intérêt et arrière-plan). J'utilise Keras avec le backend tensorflow.
Jusqu'à présent, je vais concevoir des sorties attendues aux mêmes dimensions que les images d'entrée, en appliquant un étiquetage pixel par pixel. La couche finale du modèle a soit une activation softmax (pour 2 classes), soit une activation sigmoïde (pour exprimer la probabilité que les pixels appartiennent à la classe des objets). J'ai du mal à concevoir une fonction objectif adaptée à une telle tâche, de type:
function(y_pred,y_true)
,
en accord avec Keras .
S'il vous plaît, essayez d'être précis avec les dimensions des tenseurs impliqués (entrée / sortie du modèle). Toutes les pensées et suggestions sont très appréciées. Merci !