Quels sont les «algorithmes chauds» pour l'apprentissage automatique?


14

C'est une question naïve de quelqu'un qui commence à apprendre le machine learning. Je lis ces jours-ci le livre "Machine Learning: An algorithmic perspective" de Marsland. Je le trouve utile comme livre d'introduction, mais maintenant je voudrais entrer dans les algorithmes avancés, ceux qui donnent actuellement les meilleurs résultats. Je m'intéresse principalement à la bioinformatique: regroupement de réseaux biologiques et recherche de modèles dans des séquences biologiques, particulièrement appliquées à l'analyse du polymorphisme mononucléotidique (SNP). Pourriez-vous me recommander des critiques ou des livres à lire?

Réponses:


15

Le Deep Learning a beaucoup retenu l'attention depuis 2006. Il s'agit essentiellement d'une approche pour former des réseaux de neurones profonds et conduit à des résultats vraiment impressionnants sur des ensembles de données très difficiles (comme le regroupement de documents ou la reconnaissance d'objets). Certaines personnes parlent de la renaissance du deuxième réseau de neurones (par exemple dans ce discours de Google par Schmidhuber).

Si vous voulez être impressionné, vous devriez consulter cet article scientifique Réduire la dimensionnalité des données avec les réseaux de neurones, Hinton & Salakhutdinov.

(Il y a tellement de travail en cours actuellement dans ce domaine, qu'il n'y a que deux livres à venir que je connais qui le traiteront: l' apprentissage automatique à grande échelle , Langford et al et Machine Learning: une perspective probabiliste de Kevin Murphy.)

Si vous voulez en savoir plus, découvrez ce que font les principaux groupes d'apprentissage en profondeur: Stanford , Montréal et surtout Toronto # 1 et Toronto # 2 .


8

La plupart des réponses données jusqu'à présent se réfèrent à "l'apprentissage supervisé" (c'est-à-dire où vous avez des étiquettes pour une partie de votre ensemble de données, que vous pouvez utiliser pour former des algorithmes). La question mentionnait spécifiquement le clustering, qui est une approche "non supervisée" (c'est-à-dire qu'aucune étiquette n'est connue à l'avance). Dans ce scénario, je suggère de regarder:

  • k-means et noyau k-means
  • Clustering agglomératif
  • Factorisation matricielle non négative
  • Allocation Dirichlet latente
  • Processus de Dirichlet et processus hiérarchiques de Dirichlet

Mais en réalité, vous constaterez probablement que votre mesure de similitude / distance est plus importante que l'algorithme spécifique que vous utilisez.

Si vous avez des données étiquetées, les approches d '«apprentissage semi-supervisé» gagnent en popularité et peuvent être très puissantes. Un bon point de départ pour SSL est le LapSVM (Machine de vecteur de support laplacien).


7

Ce sont des livres qui pourraient être utiles:

  • Introduction à l'exploration de données par Pang-Ning Tan, Michael Steinbach, Vipin Kumar. C'était le livre suggéré lors de mes cours de Data Mining à l'université. J'aime sa mise en page et son approche théorique;
  • Exploration de données: outils et techniques pratiques d'apprentissage automatique par Ian H. Witten, Eibe Frank, Mark A. Hall. Un livre très intéressant. Ce livre couvre également de nombreuses techniques mises en œuvre avec le Data Mining Framework WEKA ;
  • Apprentissage automatique par Thomas Mitchell. C'est un livre un peu ancien mais il peut être utile.

N'oubliez pas que vous pouvez assister à des cours gratuits de Machine Learning à Stanford qui viennent de commencer: www.ml-class.com .

Et pour votre problème particulier, à savoir l'analyse SNP, je suggère de jeter un coup d'œil au groupe de Di Camillo à l'Université de Padoue.


5

Voici un excellent article et livre qui explique la justification, la théorie et l'application de la plupart des méthodes les plus populaires:

Les 10 meilleurs algorithmes d'exploration de données

C'est particulièrement soigné car c'est un "top 10" choisi par les experts du sondage dans le domaine.

De plus, pour les données génétiques en général, la sélection des caractéristiques est extrêmement importante en raison des nombreuses caractéristiques. Par exemple, l'élimination des caractéristiques récursives SVM (SVM-RFE) et les méthodes connexes sont très populaires et sont activement développées et appliquées dans le contexte des données génétiques.


4

Les arbres boostés et certaines formes de svm remportent de nombreuses compétitions, mais cela revient toujours au contexte. La régularisation du collecteur est également à la pointe de la technologie.


4

Je recommande "The Elements of Statistical Learning", par Hastie, Tibshirani et Friedman. Ne vous contentez pas de le lire, de jouer avec certains algorithmes décrits par eux (la plupart d'entre eux sont implémentés en R, ou vous pouvez même en implémenter vous-même), et apprenez leurs points faibles et forts.



3

Les processus gaussiens pour l'apprentissage automatique par Rasmussen et Williams (MIT Press) est un must. Les processus gaussiens sont l'un des meilleurs algorithmes d'apprentissage automatique maintenant que les algorithmes de propagation des attentes et d'inférence variationnelle sont disponibles. Le livre est très bien écrit, a une boîte à outils MATLAB gratuite (un bon petit kit) et le livre peut être téléchargé gratuitement.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.