Nous étudions le machine learning via Machine Learning: A Probabilistic Perspective (Kevin Murphy). Bien que le texte explique les fondements théoriques de chaque algorithme, il dit rarement dans quel cas quel algorithme est le meilleur et quand il le fait, il ne dit pas comment dire dans quel cas je suis.
Par exemple, pour le choix du noyau, on m'a dit de faire une analyse exploratoire des données pour évaluer la complexité de mes données. Dans des données bidimensionnelles simples, je peux tracer et voir si un noyau linéaire ou radial est approprié. Mais que faire en dimension supérieure?
Plus généralement, que veulent dire les gens lorsqu'ils disent "apprenez à connaître vos données" avant de choisir un algorithme? Pour le moment, je ne peux distinguer que l'algorithme de classification vs l'algorithme de régression, et l'algorithme linéaire vs non linéaire (que je ne peux pas vérifier).
EDIT: Même si ma question initiale concerne la règle empirique universelle, on m'a demandé de fournir plus d'informations sur mon problème particulier.
Données: Un panel avec chaque ligne étant un mois-pays (~ 30 000 lignes au total, couvrant ~ 165 pays sur ~ 15 ans).
Réponse: 5 variables binaires d'intérêt (c.-à-d. Si une manifestation / un coup d'État / une crise, etc. se produisent au cours du mois)
Caractéristiques: ~ 400 variables (un mélange de continu, catégorique, binaire) détaillant un tas de caractéristiques des 2 pays-mois précédents (un décalage plus long peut être créé). Nous n'utilisons que des variables retardées puisque l'objectif est la prédiction.
Les exemples incluent, le taux de change, la croissance du PIB (continue), le niveau de presse libre (catégorique), la démocratie, si le voisin a un conflit (binaire). Notez que beaucoup de ces 400 fonctionnalités sont des variables retardées.