Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Dans une question récente et bien reçue, Tim demande quand les données non équilibrées sont-elles vraiment un problème dans le Machine Learning ? La prémisse de la question est qu'il y a beaucoup de littérature d'apprentissage automatique discutant de l'équilibre des classes et du problème des classes déséquilibrées . L'idée …
Qu'est-ce qu'une étude d'ablation? Et existe-t-il un moyen systématique de l'exécuter? Par exemple, j'ai prédicteurs dans une régression linéaire que j'appellerai mon modèle.nnn Comment vais-je effectuer une étude d'ablation à ce sujet? Quelles mesures dois-je utiliser? Une source ou un manuel complet serait apprécié.
L'entropie croisée et la divergence KL sont des outils pour mesurer la distance entre deux distributions de probabilité. Quelle est la différence? De plus, la minimisation de KL est équivalente à la minimisation de l'entropie croisée.H(P,Q)=−∑xP(x)logQ(x)H(P,Q)=−∑xP(x)logQ(x) H(P,Q) = -\sum_x P(x)\log Q(x) KL(P|Q)=∑xP(x)logP(x)Q(x)KL(P|Q)=∑xP(x)logP(x)Q(x) KL(P | Q) = \sum_{x} P(x)\log {\frac{P(x)}{Q(x)}} Je …
Je suis un peu confus quant aux avantages des modèles mixtes en matière de modélisation prédictive. Étant donné que les modèles prédictifs sont généralement destinés à prédire les valeurs d'observations jusque-là inconnues, il me semble évident que la seule façon dont un modèle mixte peut être utile est sa capacité …
Je viens donc de terminer la lecture d'un excellent livre Introduction to Empirical Bayes . Je pensais que le livre était génial, mais construire des prieurs à partir des données me semblait mal. J'ai appris que vous proposez un plan d'analyse, puis vous collectez des données, puis vous testez l'hypothèse …
J'essaie de comprendre la régression quantile, mais une chose qui me fait souffrir est le choix de la fonction de perte. ρτ(u)=u(τ−1{u<0})ρτ(u)=u(τ-1{u<0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) Je sais que le minimum de l'attente de est égal au -quantile, mais quelle est la raison intuitive de commencer avec cette fonction? Je ne vois …
Selon ceci et cette réponse, les auto-encodeurs semblent être une technique qui utilise des réseaux de neurones pour réduire les dimensions. Je voudrais en outre savoir ce qu'est un autoencodeur variationnel (ses principales différences / avantages par rapport à un autoencodeur "traditionnel") et aussi quelles sont les principales tâches d'apprentissage …
La distribution binomiale négative (NB) est définie sur des entiers non négatifs et a une fonction de masse de probabilitéEst-il sensé de considérer une distribution continue sur des réels non négatifs définis par la même formule (en remplaçant k \ in \ mathbb N_0 par x \ in \ mathbb …
J'essaie de retracer qui a inventé la structure et l'algorithme des données de l'arbre de décision. Dans l'article de Wikipédia sur l' apprentissage de l'arbre de décision, il est affirmé que "ID3 et CART ont été inventés indépendamment à la même époque (entre 1970 et 1980)". ID3 a été présenté …
J'écris un court essai théorique pour un cours de statistique bayésienne (dans une maîtrise en économie) sur les priors non informatifs et j'essaie de comprendre quelles sont les étapes du développement de cette théorie. À ce jour, ma chronologie se fait en trois étapes principales: le principe d'indifférence de Laplace …
Je travaille actuellement sur un problème, où j'ai besoin de développer un algorithme de chaîne de Markov Monte Carlo (MCMC) pour un modèle d'espace d'état. Pour pouvoir résoudre le problème, on m'a donné la probabilité suivante de : p ( ) = 2I ( > 0) / (1+ ). étant …
Je lisais sur l' optimiseur Adam pour le Deep Learning et suis tombé sur la phrase suivante dans le nouveau livre Deep Learning de Bengio, Goodfellow et Courville: Adam est généralement considéré comme assez robuste pour le choix des paramètres hyper, bien que le taux d'apprentissage doive parfois être modifié …
Y a-t-il quelque chose d'important dans une moyenne géométrique et une moyenne arithmétique qui se rapprochent très près, disons ~ 0,1%? Quelles conjectures peut-on faire sur un tel ensemble de données? J'ai travaillé sur l'analyse d'un ensemble de données et je remarque que, ironiquement, les valeurs sont très, très proches. …
Nous savons que nous devons appliquer des corrections de type Benjamini Hochberg pour les tests d'hypothèses multiples aux expériences basées sur un seul ensemble de données, afin de contrôler le taux de fausses découvertes, sinon toutes les expériences qui donnent un résultat positif pourraient être fausses. Mais pourquoi n'appliquons-nous pas …
L'inspiration pour cette question vient de l'article bien connu du regretté Leo-Breiman, Statistical Modeling: The Two Cultures (disponible en libre accès). L'auteur compare ce qu'il considère comme deux approches disparates de l'analyse des données, en abordant les idées clés de la statistique classique et de l'apprentissage automatique. Cependant, l'article est …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.