Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Le contexte Le gaussien multivarié apparaît fréquemment dans l'apprentissage automatique et les résultats suivants sont utilisés dans de nombreux livres et cours de ML sans les dérivations. Étant donné les données sous la forme d'une matrice de dimensions , si nous supposons que les données suivent une distribution gaussienne à …
J'essaie de comprendre comment fonctionne XGBoost. Je comprends déjà comment les arbres boostés par le gradient fonctionnent sur Python sklearn. Ce qui n'est pas clair pour moi, c'est si XGBoost fonctionne de la même manière, mais plus rapidement, ou s'il existe des différences fondamentales entre celui-ci et l'implémentation de python. …
En termes de jargon de réseau de neurones (y = poids * x + biais), comment saurais-je quelles variables sont plus importantes que d'autres? J'ai un réseau neuronal avec 10 entrées, 1 couche cachée avec 20 nœuds et 1 couche de sortie qui a 1 nœud. Je ne sais pas …
Les algorithmes génétiques sont une forme de méthode d'optimisation. Souvent, la descente de gradient stochastique et ses dérivés sont le meilleur choix pour l'optimisation des fonctions, mais des algorithmes génétiques sont encore parfois utilisés. Par exemple, l'antenne du vaisseau spatial ST5 de la NASA a été créée avec un algorithme …
Je me suis récemment intéressé aux LSTM et j'ai été surpris d'apprendre que les poids sont partagés dans le temps. Je sais que si vous partagez les pondérations dans le temps, vos séquences temporelles d'entrée peuvent être de longueur variable. Avec des poids partagés, vous avez beaucoup moins de paramètres …
Soit un espace de probabilité, étant donné une variable aléatoire et une -algebra nous pouvons construire une nouvelle variable aléatoire , qui est l'espérance conditionnelle.( Ω , F , μ ) (Ω,F,μ)(\Omega,\mathscr{F},\mu)ξ : Ω → Rξ:Ω→R\xi:\Omega \to \mathbb{R} σ σ\sigmaG ⊆ FG⊆F\mathscr{G}\subseteq \mathscr{F} E [ ξ |G ]E[ξ|G]E[\xi|\mathscr{G}] Quelle est …
Je suis nouveau dans l'optimisation. Je continue de voir des équations qui ont un exposant 2 et un indice 2 sur le côté droit d'une norme. Par exemple, voici l'équation des moindres carrés min||Ax−b||22||Ax−b||22 ||Ax-b||^2_2 Je pense que je comprends l'exposant 2: cela signifie mettre au carré la valeur de …
Bien que ces deux termes omniprésents soient souvent utilisés comme synonymes, il semble parfois y avoir une distinction. Y a-t-il effectivement une différence, ou sont-ils exactement synonymes?
Je suis confus sur la façon de partitionner les données pour la validation croisée k-fold de l'apprentissage d'ensemble. En supposant que j'ai un cadre d'apprentissage d'ensemble pour la classification. Ma première couche contient les modèles de classification, par exemple svm, les arbres de décision. Ma deuxième couche contient un modèle …
J'ai du mal à comprendre la dérivation de l'erreur de prédiction attendue ci-dessous (ESL), en particulier sur la dérivation de 2.11 et 2.12 (conditionnement, le pas vers le minimum point par point). Tous les pointeurs ou liens très appréciés. Ci-dessous, je rapporte l'extrait de ESL pg. 18. Les deux premières …
La «supervision distante» est un schéma d'apprentissage dans lequel un classificateur est appris en fonction d'un ensemble de formation faiblement étiqueté (les données de formation sont étiquetées automatiquement sur la base d'heuristiques / règles). Je pense que l'apprentissage supervisé et l'apprentissage semi-supervisé peuvent inclure une telle «supervision à distance» si …
Je lis environ deux techniques d'interprétabilité de modèles post hoc populaires: LIME et SHAP J'ai du mal à comprendre la principale différence entre ces deux techniques. Pour citer Scott Lundberg , le cerveau derrière SHAP: Les valeurs SHAP viennent avec les avantages d'estimation locale de la boîte noire de LIME, …
Je travaille sur la classification des stades de sommeil. J'ai lu quelques articles de recherche sur ce sujet, beaucoup d'entre eux ont utilisé la méthode SVM ou d'ensemble. Est-ce une bonne idée d'utiliser un réseau neuronal convolutif pour classer le signal EEG unidimensionnel? Je suis nouveau dans ce genre de …
Il existe différents types d'algorithmes MCMC: Metropolis-Hastings Gibbs Échantillonnage d'importance / rejet (lié). Pourquoi utiliser un échantillonnage de Gibbs au lieu de Metropolis-Hastings? Je soupçonne qu'il y a des cas où l'inférence est plus traitable avec l'échantillonnage de Gibbs qu'avec Metropolis-Hastings, mais je ne suis pas clair sur les détails.
J'ai eu du mal à comprendre l'utilisation de la régression logistique dans un article. L'article disponible ici utilise la régression logistique pour prédire la probabilité de complications lors d'une chirurgie de la cataracte. Ce qui me déroute, c'est que le document présente un modèle qui attribue un rapport de cotes …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.