J'examine quelques données de couverture génomique qui sont essentiellement une longue liste (quelques millions de valeurs) d'entiers, chacun indiquant dans quelle mesure (ou "profondément") cette position dans le génome est couverte.
Je voudrais rechercher dans ces données des "vallées", c'est-à-dire des régions nettement "inférieures" à leur environnement.
Notez que la taille des vallées que je recherche peut aller de 50 bases à quelques milliers.
Quel genre de paradigmes recommanderiez-vous d'utiliser pour trouver ces vallées?
METTRE À JOUR
Quelques exemples graphiques pour les données:
MISE À JOUR 2
Définir ce qu'est une vallée est bien sûr l'une des questions avec lesquelles je me bats. Ce sont des évidences pour moi:
mais il y a des situations plus complexes. En général, il y a 3 critères que je considère: 1. La couverture (moyenne? Maximale?) Dans la fenêtre par rapport à la moyenne mondiale. 2. La couverture (...) dans la fenêtre par rapport à son environnement immédiat. 3. Quelle est la taille de la fenêtre: si je vois une couverture très faible pour une courte durée, c'est intéressant, si je vois une couverture très faible pour une longue durée, c'est aussi intéressant, si je vois une couverture légèrement faible pour une courte durée, ce n'est pas vraiment intéressant , mais si je vois une couverture légèrement faible pendant une longue période - c'est ... C'est donc une combinaison de la longueur du sapn et de sa couverture. Plus elle est longue, plus la couverture est élevée et je la considère toujours comme une vallée.
Merci,
Dave