Premiers pas avec le biclustering

9

J'ai fait des recherches occasionnelles sur Internet sur les biclusters. (J'ai lu l'article Wiki plusieurs fois.) Jusqu'à présent, il semble qu'il y ait peu de définitions ou de terminologie standard.

Je me demandais s'il y avait des articles ou des livres standard que toute personne intéressée par les algorithmes pour trouver des biclusters devrait lire.
Est-il possible de dire quel est l'état de l'art dans le domaine? J'ai été intrigué par l'idée de trouver des biclusters en utilisant des algorithmes génétiques, donc j'apprécierais des commentaires sur cette approche en particulier dans le contexte d'autres approches.
Généralement, lors du clustering, l'objectif est de partitionner l'ensemble de données en groupes où chaque élément se trouve dans un groupe. Les algorithmes de bicluster cherchent-ils également à placer tous les éléments dans un groupe particulier?

clustering data-mining

— Henry B.
source

16

Je ne l'ai jamais utilisé directement, je ne peux donc partager que quelques articles que j'ai eu et des réflexions générales sur cette technique (qui répondent principalement à vos questions 1 et 3).

Ma compréhension générale du biclustering provient principalement des études génétiques (2-6) où nous cherchons à prendre en compte les clusters de gènes et le regroupement d'individus: en bref, nous recherchons des groupes d'échantillons partageant ensemble un profil similaire d'expression génique (cela pourrait être lié à l'état pathologique, par exemple) et les gènes qui contribuent à ce modèle de profilage génétique. Une étude de l'état de l'art des ensembles de données biologiques "massives" est disponible dans les diapositives de Pardalos, Biclustering . Notez qu'il existe un package R, biclust , avec des applications pour les données de microréseau.

En fait, mon idée initiale était d'appliquer cette méthodologie au diagnostic clinique, car elle permet de mettre des caractéristiques ou des variables dans plus d'un cluster, ce qui est intéressant d'un point de vue séméologique car les symptômes qui se regroupent permettent de définir le syndrome , mais certains symptômes peuvent chevauchement dans différentes maladies. Une bonne discussion peut être trouvée dans Cramer et al., Comorbidity: A network perspective (Behavioral and Brain Sciences 2010, 33, 137-193).

Une technique quelque peu apparentée est le filtrage collaboratif . Une bonne revue a été mise à disposition par Su et Khoshgoftaar ( Advances in Artificial Intelligence , 2009): A Survey of Collaborative Filtering Techniques . D'autres références sont répertoriées à la fin. Peut-être que l'analyse d' un ensemble d'articles fréquents , comme illustré dans le problème du panier de marché , y est également liée, mais je n'ai jamais enquêté sur cela. Un autre exemple de co-clustering est lorsque nous voulons regrouper simultanément des mots et des documents, comme dans l'exploration de texte, par exemple Dhillon (2001). Co-regroupement de documents et de mots à l'aide du partitionnement de graphe spectral bipartite . Proc. KDD , p. 269-274.

À propos de quelques références générales, voici une liste peu exhaustive que j'espère que vous trouverez utile:

Jain, AK (2010). Groupement de données: 50 ans au-delà de K-means . Lettres de reconnaissance de formes , 31 , 651–666
Carmona-Saez et al. (2006). Biclustering des données d'expression génique par factorisation matricielle non lisse non négative . BMC Bioinformatics , 7 , 78.
Prelic et al. (2006). Une comparaison et une évaluation systématiques des méthodes de biclustering pour les données d'expression génique . Bioinformatics , 22 (9) , 1122-1129. www.tik.ee.ethz.ch/sop/bimax
DiMaggio et al. (2008). Biclustering via un réordonnancement optimal des matrices de données en biologie des systèmes: méthodes rigoureuses et études comparatives . BMC Bioinformatics , 9 , 458.
Santamaria et al. (2008). BicOverlapper: Un outil pour la visualisation bicluster . Bioinformatics , 24 (9) , 1212-1213.
Madeira, SC et Oliveira, AL (2004) Algorithmes Bicluster pour l'analyse des données biologiques: une enquête . IEEE Trans. Comput. Biol. Bioinform. , 1 , 24–45.
Badea, L. (2009). Clustergrams généralisés pour les biclusters qui se chevauchent . IJCAI
Symeonidis, P. (2006). Filtrage collaboratif des biclusters les plus proches . WEBKDD

— chl
source

1

Très bonne réponse. Si j'avais un autre vote, je voterais à nouveau pour cette réponse.

— Henry

@chl Le premier lien vers les diapositives Pardalos semble être mort. Quelqu'un connaît-il un autre emplacement?

— Erik

@Erik La plupart des éléments des diapositives se trouvent dans Biclustering cohérent via la programmation fractionnelle 0–1 du même auteur. (J'ai vérifié le contenu des diapositives avec ma copie du lien mort.)

— chl

4

Voici un bon sondage / examen:

Stanislav Busygin, Oleg Prokopyev et Panos M. Pardalos. Biclustering dans l'exploration de données . Ordinateurs et recherche opérationnelle, 35 (9): 2964-2987, septembre 2008.

— kc2001
source