Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

4
Quel problème le suréchantillonnage, le sous-échantillonnage et SMOTE résolvent-ils?
Dans une question récente et bien reçue, Tim demande quand les données non équilibrées sont-elles vraiment un problème dans le Machine Learning ? La prémisse de la question est qu'il y a beaucoup de littérature d'apprentissage automatique discutant de l'équilibre des classes et du problème des classes déséquilibrées . L'idée …


3
Quelle est la différence entre l'entropie croisée et la divergence KL?
L'entropie croisée et la divergence KL sont des outils pour mesurer la distance entre deux distributions de probabilité. Quelle est la différence? De plus, la minimisation de KL est équivalente à la minimisation de l'entropie croisée.H(P,Q)=−∑xP(x)logQ(x)H(P,Q)=−∑xP(x)log⁡Q(x) H(P,Q) = -\sum_x P(x)\log Q(x) KL(P|Q)=∑xP(x)logP(x)Q(x)KL(P|Q)=∑xP(x)log⁡P(x)Q(x) KL(P | Q) = \sum_{x} P(x)\log {\frac{P(x)}{Q(x)}} Je …



2
Régression quantile: fonction de perte
J'essaie de comprendre la régression quantile, mais une chose qui me fait souffrir est le choix de la fonction de perte. ρτ(u)=u(τ−1{u&lt;0})ρτ(u)=u(τ-1{u&lt;0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) Je sais que le minimum de l'attente de est égal au -quantile, mais quelle est la raison intuitive de commencer avec cette fonction? Je ne vois …

1
Que sont les auto-encodeurs variationnels et à quelles tâches d'apprentissage sont-ils utilisés?
Selon ceci et cette réponse, les auto-encodeurs semblent être une technique qui utilise des réseaux de neurones pour réduire les dimensions. Je voudrais en outre savoir ce qu'est un autoencodeur variationnel (ses principales différences / avantages par rapport à un autoencodeur "traditionnel") et aussi quelles sont les principales tâches d'apprentissage …


2
Qui a inventé l'arbre de décision?
J'essaie de retracer qui a inventé la structure et l'algorithme des données de l'arbre de décision. Dans l'article de Wikipédia sur l' apprentissage de l'arbre de décision, il est affirmé que "ID3 et CART ont été inventés indépendamment à la même époque (entre 1970 et 1980)". ID3 a été présenté …
24 cart  history 

3
Histoire de la théorie antérieure non informative
J'écris un court essai théorique pour un cours de statistique bayésienne (dans une maîtrise en économie) sur les priors non informatifs et j'essaie de comprendre quelles sont les étapes du développement de cette théorie. À ce jour, ma chronologie se fait en trois étapes principales: le principe d'indifférence de Laplace …


3
Quelle est la raison pour laquelle Adam Optimizer est considéré comme robuste à la valeur de ses paramètres hyper?
Je lisais sur l' optimiseur Adam pour le Deep Learning et suis tombé sur la phrase suivante dans le nouveau livre Deep Learning de Bengio, Goodfellow et Courville: Adam est généralement considéré comme assez robuste pour le choix des paramètres hyper, bien que le taux d'apprentissage doive parfois être modifié …

3
Que peut-on conclure sur les données lorsque la moyenne arithmétique est très proche de la moyenne géométrique?
Y a-t-il quelque chose d'important dans une moyenne géométrique et une moyenne arithmétique qui se rapprochent très près, disons ~ 0,1%? Quelles conjectures peut-on faire sur un tel ensemble de données? J'ai travaillé sur l'analyse d'un ensemble de données et je remarque que, ironiquement, les valeurs sont très, très proches. …

3
Pourquoi les corrections d'hypothèses multiples ne sont-elles pas appliquées à toutes les expériences depuis la nuit des temps?
Nous savons que nous devons appliquer des corrections de type Benjamini Hochberg pour les tests d'hypothèses multiples aux expériences basées sur un seul ensemble de données, afin de contrôler le taux de fausses découvertes, sinon toutes les expériences qui donnent un résultat positif pourraient être fausses. Mais pourquoi n'appliquons-nous pas …

7
Recommandations pour des articles non techniques mais approfondis en statistiques
L'inspiration pour cette question vient de l'article bien connu du regretté Leo-Breiman, Statistical Modeling: The Two Cultures (disponible en libre accès). L'auteur compare ce qu'il considère comme deux approches disparates de l'analyse des données, en abordant les idées clés de la statistique classique et de l'apprentissage automatique. Cependant, l'article est …
24 references 

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.