Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

2
Machine d'apprentissage extrême: de quoi s'agit-il?
Je réfléchis, implémente et utilise le paradigme ELM (Extreme Learning Machine) depuis plus d'un an maintenant, et plus je le fais, plus je doute que ce soit vraiment une bonne chose. Mon opinion, cependant, semble être en contraste avec la communauté scientifique où - lors de l'utilisation de citations et …
20 regression 

1
Avantages de l'échantillonnage stratifié par rapport à l'échantillonnage aléatoire pour générer des données de formation dans la classification
Je voudrais savoir s'il y a des avantages / certains à utiliser l'échantillonnage stratifié au lieu de l'échantillonnage aléatoire, lors de la division de l'ensemble de données d'origine en ensemble de formation et de test pour la classification. De plus, l'échantillonnage stratifié introduit-il plus de biais dans le classificateur que …

1
Discussion sur l'overfit dans xgboost
Ma configuration est la suivante: Je suis les directives dans "Modélisation prédictive appliquée". J'ai donc filtré les fonctionnalités corrélées et je me retrouve avec ce qui suit: 4900 points de données dans l'ensemble d'apprentissage et 1600 points de données dans l'ensemble de test. J'ai 26 fonctionnalités et la cible est …

2
Preuve de convergence des k-moyennes
Pour une mission, on m'a demandé de fournir une preuve que k-means converge en un nombre fini d'étapes. Voici ce que j'ai écrit: CCCE( C) = ∑Xmini = 1k∥ x - cje∥2E(C)=∑Xminje=1k‖X-cje‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E( C)E(C)E(C) L'étape 2 fait référence à l'étape qui étiquette chaque point de données par son centre …




4
Pourquoi l'augmentation de la taille de l'échantillon des lancers de pièces n'améliore-t-elle pas l'approximation de la courbe normale?
Je lis le livre Statistics (Freeman, Pisani, Purves) et j'essaie de reproduire un exemple où une pièce est lancée disons 50 fois, le nombre de têtes comptées et cela se répète 1000 fois. Tout d'abord, j'ai gardé le nombre de lancers (taille de l'échantillon) à 1000 et augmenté les répétitions. …



4
Relations entre corrélation et causalité
De la page Wikipedia intitulée corrélation n'implique pas de causalité , Pour deux événements corrélés, A et B, les différentes relations possibles incluent: A provoque B (causalité directe); B provoque A (causalité inverse); A et B sont les conséquences d'une cause commune, mais ne se causent pas; A et B …

5
Éviter le sur-ajustement dans la régression: alternatives à la régularisation
La régularisation en régression (linéaire, logistique ...) est le moyen le plus utilisé pour réduire le sur-ajustement. Lorsque l'objectif est la précision des prédictions (sans explication), existe-t-il de bonnes alternatives à la régularisation, particulièrement adaptées aux ensembles de données volumineuses (mi / milliards d'observations et millions de fonctionnalités)?

1
Test non paramétrique si deux échantillons sont tirés de la même distribution
Je voudrais tester l'hypothèse que deux échantillons sont tirés de la même population, sans faire d'hypothèses sur la distribution des échantillons ou la population. Comment dois-je procéder? D'après Wikipédia, j'ai l'impression que le test de Mann Whitney U devrait convenir, mais il ne semble pas fonctionner pour moi dans la …


2
Métriques de classification multi-étiquettes sur scikit
J'essaie de construire un classificateur multi-étiquettes afin d'affecter des sujets aux documents existants à l'aide de scikit Je suis en train de traiter mes documents en les passant par les TfidfVectorizerétiquettes à travers le MultiLabelBinarizeret en créant un OneVsRestClassifieravec un SGDClassifiercomme estimateur. Cependant, lorsque je teste mon classificateur, je n'obtiens …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.