Les performances prédictives dépendent davantage de l'expertise de l'analyste de données que de la méthode?

Je suis tombé sur une rumeur selon laquelle une étude a montré que les performances des modèles prédictifs dépendent davantage de l'expertise de l'analyste de données avec la méthode choisie que du choix de la méthode.
En d'autres termes, l'affirmation est qu'il est plus important que l'analyste de données soit familier avec la méthode choisie que la façon dont "appropriée" la méthode semble pour le problème d'un point de vue plus théorique.

Cela a été mentionné dans le contexte de la chimiométrie, qui implique généralement des problèmes de nombreuses variables (100s - 1000s), de colinéarité multiple et, bien sûr, trop peu d'échantillons. La prédiction peut avoir été une classification ou une régression.

Mon expérience personnelle suggère que cela est plausible , mais une étude a été mentionnée (j'ai demandé à la personne qui l'a mentionné par e-mail après une recherche rapide mais infructueuse, mais n'a jamais reçu de réponse). Cependant, également avec une recherche plus élaborée, je n'ai pu retrouver aucun document.

Quelqu'un est-il au courant de ces constatations? Sinon, que dit l'expérience personnelle de Big Guys ici?

predictive-models method-comparison

— cbeleites soutient Monica
source

Je suis plus un petit gars ici, mais ce que j'ai vu dans Neural Networks soutient cette hypothèse: loin d'être un outil "prêt à l'emploi" où "la machine apprend" quelque chose, une classification ou une prédiction réussie semble dépendre d' un beaucoup sur la façon dont la personne est intelligente qui dit au réseau comment apprendre des données - surtout en termes de prétraitement des données, mais aussi en termes d'architecture de réseau, etc.

— Stephan Kolassa

Je pense que c'est la figure 2.4 de The Elements of Statistical Learning où ils comparent les voisins les plus proches avec des méthodes de type régression (et bien sûr, ils fournissent également plusieurs points de comparaison dans le livre).

— StasK

@StasK: merci pour le rappel (honte à moi de ne pas m'en être souvenu). Ils signalent également que dans la pratique la PCR, le PLS et la régression des crêtes sont très similaires, ainsi que la LDA et la régression logistique. Cependant, ces dernières méthodes sont également très similaires d'un point de vue théorique.

— cbeleites prend en charge Monica le

En fait, j'ai entendu une rumeur selon laquelle les machines d'apprentissage décentes sont généralement meilleures que les experts, car la tendance humaine est de minimiser la variance au détriment du biais (sur-lisse), conduisant à de mauvaises performances prédictives dans un nouvel ensemble de données. La machine est calibrée pour minimiser le MSE, et a donc tendance à faire mieux en termes de prédiction dans un nouvel ensemble de données .

— guest47
source

D'après mon expérience, il est certainement vrai que les humains ont tendance à sur-équiper. Cependant, d'après mon expérience, vous avez également besoin d'un expert décent qui choisit la machine d'apprentissage qui ne convient pas. Sinon, quelqu'un choisit simplement une machine d'apprentissage qui convient.

— cbeleites prend en charge Monica

MSE en général ne protège pas du sur-ajustement, sauf si vous limitez beaucoup le modèle - et là, l'expert intervient à nouveau. Néanmoins, les gens essaient d'optimiser, par exemple, les hyperparamètres du modèle. Les stratégies d'optimisation particulièrement itératives sont surajustées (MSE ou non), à moins que vous ne puissiez vous permettre un tout nouvel ensemble de données de test indépendantes pour chaque itération. Je devrais peut-être dire que je viens d'un domaine où les cas de test sont très rares. Et, en tout cas, vous pouvez affirmer que ce n'est pas une machine d'apprentissage décente .

— cbeleites prend en charge Monica