Quelles matières mathématiques suggéreriez-vous pour préparer l'exploration de données et l'apprentissage automatique?


30

J'essaie de mettre en place un programme de mathématiques autogéré pour préparer l'apprentissage du data mining et du machine learning. Cela est motivé par le démarrage du cours d'apprentissage automatique d'Andrew Ng sur Coursera et le sentiment qu'avant de continuer, je devais améliorer mes compétences en mathématiques. J'ai obtenu mon diplôme universitaire il y a quelque temps, donc mon algèbre et mes statistiques (en particulier des cours de science politique / psychologie) sont rouillées.

Les réponses dans le fil de discussion Une solide formation en mathématiques est-elle une condition requise pour le ML? proposer uniquement des livres ou des cours directement liés à l'apprentissage automatique; J'ai déjà étudié certaines de ces classes et livres et je ne sais pas exactement quel sujet de mathématiques étudier (par exemple: quel domaine [s] d'adresse mathématique dérivant d'une équation pour "minimiser une fonction de coût"?). L'autre fil conducteur suggéré ( Compétences et cours nécessaires pour être un analyste de données ) ne mentionne que les grandes catégories de compétences nécessaires à l'analyse des données. Le fil Introduction aux statistiques pour les mathématiciens ne s'applique pas parce que je n'ai pas déjà un diplôme en mathématiques; un mathématicien de fil similaire veut les connaissances équivalentes à un degré de statistiques de qualité a une liste incroyable de livres de statistiques, mais encore une fois, je cherche à commencer les mathématiques à partir d'un souvenir rouillé de l'algèbre et à partir de là.

Donc, pour ceux qui travaillent dans l'apprentissage automatique et l'exploration de données, quels domaines de mathématiques trouvez-vous essentiels pour faire votre travail? Quelles matières mathématiques suggéreriez-vous pour préparer l'exploration de données et l'apprentissage automatique, et dans quel ordre? Voici la liste et l'ordre que j'ai jusqu'à présent:

  • Algèbre
  • Pré-calcul
  • Calcul
  • Algèbre linéaire
  • Probabilité
  • Statistiques (de nombreux sous-champs différents ici, mais je ne sais pas comment les décomposer)

En ce qui concerne l'exploration de données et l'apprentissage automatique, grâce à mon travail actuel, j'ai accès à des enregistrements sur l'activité du site Web / de l'application, les transactions des clients / abonnements et les données immobilières (statiques et chronologiques). J'espère appliquer l'exploration de données et l'apprentissage automatique à ces ensembles de données.

Merci!

MODIFIER:

Pour la postérité, je voulais partager une auto-évaluation mathématique utile pour le cours d' introduction à l'apprentissage automatique de Geoffrey Gordon / Alex Smola à la CMU.


3
En termes de prérequis pour les cours de Coursera, ces informations devraient être disponibles quelque part dans leur matériel. En dehors de leurs cours / plus généralement, la question des mathématiques dont vous avez besoin pour stat / ML / DM me semble être un doublon. Il y a plusieurs fils sur CV qui couvrent ce matériel, y compris: est-un-fort-fond-en-maths-un-requis-pour-ml , & compétences-cours-nécessaire-pour-être-un-analyste de données ( peut-être entre autres).
gung - Rétablir Monica

1
Veuillez examiner ces discussions, les discussions qui y sont liées comme étroitement liées, et peut-être rechercher sur le site. Si vous avez encore une question après avoir lu, revenez ici et modifiez ce Q pour le rendre plus distinctif / spécifiez plus précisément ce que vous devez encore savoir qui n'a pas été couvert ailleurs.
gung - Rétablir Monica

Réponses:


15

Les suggestions faites par @gung méritent certainement d'être suivies. Après avoir suivi le cours, je pense que votre liste est un bon début. Certains commentaires:

  1. l'algèbre linéaire et l'algèbre matricielle sont la même chose, alors laissez tomber cette dernière.
  2. dans le calcul, assurez-vous d'inclure une différenciation partielle. Il s'agit d'un calcul appliqué aux fonctions de plusieurs variables (symboliquement, si, disons, est une fonction de et alors vous voulez plutôt que ). Heureusement, ce n'est pas difficile.x y zzxy dzzxdzdx
  3. en calcul, vous n'avez besoin de rien d'autre que de l'intégration de base (et peut-être même pas de cela). C'est une chance car l'intégration est difficile.
  4. ajouter une optimisation de base, c'est-à-dire trouver le maximum ou le minimum d'une fonction, généralement une fonction de plus d'une variable. Une appréciation de la descente en pente à tout le moins est essentielle.
  5. en termes de difficulté, vous voulez probablement être quelque part entre le début et la fin de la 1ère année de premier cycle.
  6. essayez de lire certains textes de base sur les probabilités et les statistiques, en ligne ou autrement, mais ne vous inquiétez pas trop (les mathématiques de base sont de toute façon une condition préalable à la compréhension des probabilités et des statistiques). Si vous suivez des cours tels que celui que vous proposez, vous découvrirez ce que vous devez apprendre et où se situent vos intérêts. Une chose que vous ne voulez pas faire, au moins au début, est de passer beaucoup de temps à apprendre les tests d'hypothèse. Vous préférez vous orienter vers la compréhension des statistiques de base - variables aléatoires, distributions de probabilités (VFI, CDF), statistiques descriptives - puis essayer de comprendre la régression.

5

Il y a quelques excellentes discussions sur ce forum-- y compris CELLE que j'ai trouvé particulièrement utile pour moi en termes de développement d' un schéma conceptuel des compétences importantes pour le travail scientifique des données.

Comme mentionné ci-dessus, de nombreux cours en ligne sont disponibles. Par exemple, Coursera a maintenant une spécialisation en science des données avec un certain nombre de cours qui couvriraient probablement certains des outils dont vous auriez besoin pour votre travail.


3

Si vous cherchez à vous concentrer sur l'apprentissage automatique / l'exploration de données, je recommanderais fortement l'optimisation / l'algèbre linéaire / les statistiques et la probabilité. Voici une liste de livres pour la probabilité. J'espère que ça t'as aidé.


3

En ce qui concerne le brossage des compétences mathématiques très très basiques, j'utilise ces livres:

Éléments de mathématiques pour l'économie et les finances. Mavron, Vassilis C., Phillips, Timothy N Ce livre couvre les compétences essentielles en mathématiques (addition soustraction), la différenciation partielle, l'intégration, la matrice et les déterminants, et un petit chapitre sur l'optimisation, ainsi que l'équation différentielle. Il est destiné à l'économie et à la finance, mais c'est un petit livre, la séquence de chapitres convient à mes besoins et facile à lire pour moi.

Analyse statistique: Microsoft Excel 2010. Conrad Carlberg Couvre l'analyse statistique de base, la régression multiple et l'analyse de covariance, et utilise Excel.

Découvrir les statistiques à l'aide de R. Andy Field, Jeremy Miles, Zoë Field. Je ne l'ai pas encore lu. Il utilise R.

Algèbre linéaire élémentaire. Ron Larson, David C. Falvo.

Méthodes matricielles: Algèbre linéaire appliquée Par Richard Bronson, Gabriel B. Costa. couvre l'algèbre linéaire élémentaire et le calcul matriciel

Ce sont les livres de mathématiques de base que j'utilise pour se rapporter à l'exploration de données / apprentissage automatique

J'espère que cela t'aides


3

Il y a pas mal de ressources pertinentes répertoriées (et classées) ici , à ce qu'on appelle les "Open Source Data Science Masters".

Spécifiquement pour les mathématiques, ils énumèrent:

  1. Algèbre linéaire et programmation
  2. Statistiques
  3. Équations différentielles et calcul

Recommandations assez génériques, bien qu'elles énumèrent certains manuels qui pourraient vous être utiles.


2
  • La probabilité et les statistiques sont essentielles. Certains mots clés sont test d'hypothèse, distribution normale multivariée, inférence bayésienne (probabilité conjointe, probabilité conditionnelle), moyenne, variance, covariance, divergence de Kullback-Leibler, ...
  • L'algèbre linéaire de base est essentielle pour l'apprentissage automatique. Les sujets que vous pourriez apprendre sont la décomposition propre et la décomposition en valeurs singulières. (Bien sûr, vous devez savoir comment calculer un produit matriciel.)
  • Comme TooTone l'a déjà mentionné: l'optimisation est importante. Vous devez savoir ce qu'est la descente en pente et peut-être jeter un œil à la méthode de Newton, Levenberg-Marquardt, Broyden-Fletcher-Goldfarb-Shanno.
  • Le calcul n'est pas si important mais il pourrait être utile de savoir comment calculer les dérivées partielles de fonctions (matrice de Jacobi, matrice de Hesse, ...) et vous devriez savoir ce qu'est une intégrale.

0

Algèbre linéaire, statistiques, calcul. Je pense que vous pouvez les apprendre en tandem w / ML - ou même après les bases. Les cours / livres de démarrage font un excellent travail avec les chapitres d'introduction aux mathématiques, et vous apprenez l'essentiel des mathématiques tout en apprenant le ML. J'ai fait un épisode de podcast sur les mathématiques dont vous avez besoin pour l'apprentissage automatique et les ressources pour les apprendre: Guide d'apprentissage automatique # 8


0

Avant de commencer un cours d'apprentissage automatique, suivez le cours de mathématiques suivant. N'essayez pas non plus de creuser en une seule fois. Apprenez les concepts de base, puis perfectionnez vos compétences en mathématiques et répétez: -

Les sujets mathématiques sont les suivants: -

  • Algèbre linéaire
  • Probabilité
  • Calcul de base
  • Maxima et minima de fonction
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.