Statistiques et Big Data

2

Machine d'apprentissage extrême: de quoi s'agit-il?

Je réfléchis, implémente et utilise le paradigme ELM (Extreme Learning Machine) depuis plus d'un an maintenant, et plus je le fais, plus je doute que ce soit vraiment une bonne chose. Mon opinion, cependant, semble être en contraste avec la communauté scientifique où - lors de l'utilisation de citations et …

20 regression

1

Avantages de l'échantillonnage stratifié par rapport à l'échantillonnage aléatoire pour générer des données de formation dans la classification

Je voudrais savoir s'il y a des avantages / certains à utiliser l'échantillonnage stratifié au lieu de l'échantillonnage aléatoire, lors de la division de l'ensemble de données d'origine en ensemble de formation et de test pour la classification. De plus, l'échantillonnage stratifié introduit-il plus de biais dans le classificateur que …

20 classification cross-validation random-forest train stratification

1

Discussion sur l'overfit dans xgboost

Ma configuration est la suivante: Je suis les directives dans "Modélisation prédictive appliquée". J'ai donc filtré les fonctionnalités corrélées et je me retrouve avec ce qui suit: 4900 points de données dans l'ensemble d'apprentissage et 1600 points de données dans l'ensemble de test. J'ai 26 fonctionnalités et la cible est …

20 machine-learning boosting overfitting

2

Preuve de convergence des k-moyennes

Pour une mission, on m'a demandé de fournir une preuve que k-means converge en un nombre fini d'étapes. Voici ce que j'ai écrit: CCCE( C) = ∑Xmini = 1k∥ x - cje∥2E(C)=∑Xminje=1k‖X-cje‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E( C)E(C)E(C) L'étape 2 fait référence à l'étape qui étiquette chaque point de données par son centre …

20 mathematical-statistics k-means

6

Valeur attendue du temps d'attente pour le premier des deux bus circulant toutes les 10 et 15 minutes

Je suis tombé sur une question d'entrevue: Il y a un train rouge qui arrive toutes les 10 minutes. Il y a un train bleu toutes les 15 minutes. Les deux partent d'un moment aléatoire, vous n'avez donc aucun horaire. Si vous arrivez à la gare à une heure aléatoire …

19 probability random-variable expected-value

2

Avantages de la famille exponentielle: pourquoi devrions-nous l'étudier et l'utiliser?

Alors là, j'étudie l'inférence. J'aimerais que quelqu'un puisse énumérer les avantages de la famille exponentielle. Par famille exponentielle, je veux dire les distributions qui sont données comme F( x | θ ) = h ( x ) exp{ η( θ ) T( x ) - B ( θ ) }f(x|θ)=h(x)exp⁡{η(θ)T(x)−B(θ)}\begin{align*} …

19 self-study exponential-family

3

Quel est le nom de ce tracé qui a des lignes avec deux points connectés?

J'ai lu le rapport d'EIA et ce complot a attiré mon attention. Je veux maintenant pouvoir créer le même type de tracé. Il montre l'évolution de la productivité énergétique entre deux ans (1990-2015) et ajoute la valeur de variation entre ces deux périodes. Quel est le nom de ce type …

19 data-visualization terminology excel

4

Pourquoi l'augmentation de la taille de l'échantillon des lancers de pièces n'améliore-t-elle pas l'approximation de la courbe normale?

Je lis le livre Statistics (Freeman, Pisani, Purves) et j'essaie de reproduire un exemple où une pièce est lancée disons 50 fois, le nombre de têtes comptées et cela se répète 1000 fois. Tout d'abord, j'ai gardé le nombre de lancers (taille de l'échantillon) à 1000 et augmenté les répétitions. …

19 normal-distribution central-limit-theorem normal-approximation

1

Quelle est l'histoire des boîtes à moustaches et comment la conception des «boîtes et moustaches» a-t-elle évolué?

De nombreuses sources datent de la conception classique de « boîte à moustaches » à John Tukey et son « complot schématique » de 1970. La conception semble être restée relativement stable depuis lors, avec Edward Tufte dénudation version de la parcelle de boîte ne pas accrocher, alors que les …

19 data-visualization references boxplot history

3

Comment savoir si la petite amie peut dire l'avenir (c.-à-d. Prédire les stocks)?

Ma copine a récemment trouvé un emploi dans la vente et le commerce dans une grande banque. Forte de son nouvel emploi, elle croit pouvoir prédire si les stocks augmenteront ou baisseront à la fin du mois plus que le hasard (elle pense même pouvoir le faire avec une précision …

19 probability forecasting finance

4

Relations entre corrélation et causalité

De la page Wikipedia intitulée corrélation n'implique pas de causalité , Pour deux événements corrélés, A et B, les différentes relations possibles incluent: A provoque B (causalité directe); B provoque A (causalité inverse); A et B sont les conséquences d'une cause commune, mais ne se causent pas; A et B …

19 correlation causality

5

Éviter le sur-ajustement dans la régression: alternatives à la régularisation

La régularisation en régression (linéaire, logistique ...) est le moyen le plus utilisé pour réduire le sur-ajustement. Lorsque l'objectif est la précision des prédictions (sans explication), existe-t-il de bonnes alternatives à la régularisation, particulièrement adaptées aux ensembles de données volumineuses (mi / milliards d'observations et millions de fonctionnalités)?

19 regression regularization overfitting

1

Test non paramétrique si deux échantillons sont tirés de la même distribution

Je voudrais tester l'hypothèse que deux échantillons sont tirés de la même population, sans faire d'hypothèses sur la distribution des échantillons ou la population. Comment dois-je procéder? D'après Wikipédia, j'ai l'impression que le test de Mann Whitney U devrait convenir, mais il ne semble pas fonctionner pour moi dans la …

19 r hypothesis-testing nonparametric wilcoxon-mann-whitney wilcoxon-signed-rank

1

Comment fonctionne l'échantillonnage négatif dans word2vec?

J'ai essayé de comprendre le concept d'échantillonnage négatif dans le contexte de word2vec. Je suis incapable de digérer l'idée d'un échantillonnage [négatif]. Par exemple, dans les articles de Mikolov, l'attente d'échantillonnage négative est formulée comme suit: Journalσ( ⟨ W , c ⟩ ) + k ⋅ EcN∼ Pré[ journalσ( - …

19 machine-learning word2vec word-embeddings

2

Métriques de classification multi-étiquettes sur scikit

J'essaie de construire un classificateur multi-étiquettes afin d'affecter des sujets aux documents existants à l'aide de scikit Je suis en train de traiter mes documents en les passant par les TfidfVectorizerétiquettes à travers le MultiLabelBinarizeret en créant un OneVsRestClassifieravec un SGDClassifiercomme estimateur. Cependant, lorsque je teste mon classificateur, je n'obtiens …

19 scikit-learn multi-class multilabel