Quelle est l'importance de la connaissance du domaine dans notre profession?


8

ou: La sélection d'un domaine lors de la saisie d'un emploi réduit-elle vos futures options pour les domaines et donc les emplois?

Pour rendre cette question aussi largement applicable que possible ...

  • profession fait référence à toutes sortes d'analystes de données, des statisticiens aux programmeurs d'apprenants machine en passant par les mineurs de données.
  • imaginez qu'on vous ait demandé de donner un conseil à un public composé d'étudiants et de professionnels de différentes classes d'âge

Peut-être un point de départ:

Les concours sur Kaggle ont montré que les étrangers peuvent surpasser les modèles créés par les employés de l'entreprise (voir par exemple ici ). D'un autre côté, mon expérience de travail (limitée) m'a amené à la conclusion que comprendre comment et où les données ont été générées est absolument obligatoire pour créer un environnement abstrait où quelque chose comme un concours Kaggle peut arriver. De plus, sans connaissance du domaine, j'ai du mal à communiquer les résultats à d'autres couches / départements. Certains associent la dernière compétence comme clé de la "nouvelle" profession "Data Science" (voir par exemple ici ou ici ).


question a déjà été signalée afin de la faire cw.
steffen

1
Wrt. à l'exemple de Kaggle: 1. Le "benchmark interne" (qui semble être la base des "340% de surperformances") ne dit pas que c'est le meilleur modèle d'Allstate. D'autres compétitions utilisent des modèles raisonnablement simples et basiques pour l'analyse comparative, ce qui peut être le cas ici également. 2. Aucune connaissance du domaine: n'oubliez pas la quantité de connaissances du domaine et de l'analyse des données qui interviennent lors de la préparation de l'ensemble de données. Et: je ne connais pas la profession / l'expertise d'application du gagnant.
cbeleites mécontents de SX le

Réponses:


7

Je fais une analogie: résoudre des problèmes statistiques sans contexte, c'est comme la boxe avec les yeux bandés. Vous pourriez assommer votre adversaire mais vous pourriez frapper votre main sur le ringpost.

Je travaille principalement avec des chercheurs en sciences médicales et sociales. Il semble y avoir un sentiment répandu selon lequel le modèle approprié de recherche est

1) Ils viennent avec une idée, de recueillir des données, écrire à ce sujet et ensuite 2) Ils donnent à nous de « faire les statistiques ».

Donc, je suis d'accord que nous devons comprendre les problèmes; bien sûr, nous n'avons pas besoin d'une compréhension aussi complète de la recherche que le praticien. C'est pourquoi je (et beaucoup d'autres personnes de données) peux travailler avec des personnes de profession différente. Mais, moins nous en savons sur un sujet, plus nous devons interagir avec le professionnel pour nous assurer que les résultats ont du sens.

L'une des nombreuses choses que j'aime dans ce que je fais, c'est que j'apprends un peu sur beaucoup de sujets différents.


1
Très belle analogie. Bien qu'un peu de statistiques dans le DoE (randomisation, planification de la taille de l'échantillon) ne fasse pas de mal non plus ... Et le besoin d'interaction peut exploser si le chevauchement des connaissances (et aussi de la terminologie) est trop faible.
cbeleites mécontents de SX le

5

Quelle est l'importance de la connaissance du domaine dans notre profession?

  • Assez important pour donner des noms distincts aux analyses de données orientées domaine (par exemple -métriques: biométrie, psychométrie, chimiométrie, ...)

  • La combinaison des connaissances du domaine et des connaissances statistiques est extrêmement importante

    • conception d'expériences, p.ex. pratiques ./. faisabilité statistique, normes spécifiques au domaine, planification de la taille de l'échantillon
    • guider l'analyse des données (Quels types de transformations ou de prétraitements ont une signification physique / biologique / chimique? Quelles corrections des données brutes sont nécessaires?, critères de qualité des données, heuristiques)
    • vérifier si les résultats peuvent être significatifs / corrects
    • interprétation des résultats
      Voici un exemple d'une interprétation spécifique à un domaine d'un classificateur qui n'a été possible que parce que les connaissances analytiques et spectroscopiques étaient à portée de main (section "LDA descriptive et interprétation spectroscopique"). Essayez d'imaginer la quantité de communication qui serait nécessaire entre un analyste de données sans connaissance spectroscopique et un spectroscopiste sans aucune idée de LDA pour arriver à une telle interprétation.
    • Dans le contexte de (manque de) reproductibilité des résultats publiés, des recherches sont menées comme s'il n'y avait pas d'autres connaissances du domaine / problème / données, voir par exemple E. R: Dougherty: développement de biomarqueurs: prudence, risque et reproductibilité, BioEssays, 2012, 34, 277-279.
      Beck-Bornholt & Dubben diraient probablement que l'incorporation de plus de connaissances dans le domaine augmente la prévalence (probabilité préalable) de bonnes idées scientifiques.
    • Le théorème du déjeuner gratuit indique la même direction.

    (Je suis chimiste spécialisé en chimiométrie et spectroscopie, et je fais à la fois des mesures et des analyses de données)

La sélection d'un domaine lors de la saisie d'un emploi réduit-elle vos futures options pour les domaines et donc les emplois?

Peut-être, mais en même temps, vous pourrez revendiquer plus d'expertise dans ce domaine et par conséquent pouvez postuler pour des emplois spécialisés (et mon expérience est que nous, les chimiométriciens, sommes une espèce très recherchée).

Et, en plus, vous montrez que vous pouvez rejoindre le travail dans de nouveaux domaines.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.