Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Je réfléchis, implémente et utilise le paradigme ELM (Extreme Learning Machine) depuis plus d'un an maintenant, et plus je le fais, plus je doute que ce soit vraiment une bonne chose. Mon opinion, cependant, semble être en contraste avec la communauté scientifique où - lors de l'utilisation de citations et …
Je voudrais savoir s'il y a des avantages / certains à utiliser l'échantillonnage stratifié au lieu de l'échantillonnage aléatoire, lors de la division de l'ensemble de données d'origine en ensemble de formation et de test pour la classification. De plus, l'échantillonnage stratifié introduit-il plus de biais dans le classificateur que …
Ma configuration est la suivante: Je suis les directives dans "Modélisation prédictive appliquée". J'ai donc filtré les fonctionnalités corrélées et je me retrouve avec ce qui suit: 4900 points de données dans l'ensemble d'apprentissage et 1600 points de données dans l'ensemble de test. J'ai 26 fonctionnalités et la cible est …
Pour une mission, on m'a demandé de fournir une preuve que k-means converge en un nombre fini d'étapes. Voici ce que j'ai écrit: CCCE( C) = ∑Xmini = 1k∥ x - cje∥2E(C)=∑Xminje=1k‖X-cje‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E( C)E(C)E(C) L'étape 2 fait référence à l'étape qui étiquette chaque point de données par son centre …
Je suis tombé sur une question d'entrevue: Il y a un train rouge qui arrive toutes les 10 minutes. Il y a un train bleu toutes les 15 minutes. Les deux partent d'un moment aléatoire, vous n'avez donc aucun horaire. Si vous arrivez à la gare à une heure aléatoire …
Alors là, j'étudie l'inférence. J'aimerais que quelqu'un puisse énumérer les avantages de la famille exponentielle. Par famille exponentielle, je veux dire les distributions qui sont données comme F( x | θ ) = h ( x ) exp{ η( θ ) T( x ) - B ( θ ) }f(x|θ)=h(x)exp{η(θ)T(x)−B(θ)}\begin{align*} …
J'ai lu le rapport d'EIA et ce complot a attiré mon attention. Je veux maintenant pouvoir créer le même type de tracé. Il montre l'évolution de la productivité énergétique entre deux ans (1990-2015) et ajoute la valeur de variation entre ces deux périodes. Quel est le nom de ce type …
Je lis le livre Statistics (Freeman, Pisani, Purves) et j'essaie de reproduire un exemple où une pièce est lancée disons 50 fois, le nombre de têtes comptées et cela se répète 1000 fois. Tout d'abord, j'ai gardé le nombre de lancers (taille de l'échantillon) à 1000 et augmenté les répétitions. …
De nombreuses sources datent de la conception classique de « boîte à moustaches » à John Tukey et son « complot schématique » de 1970. La conception semble être restée relativement stable depuis lors, avec Edward Tufte dénudation version de la parcelle de boîte ne pas accrocher, alors que les …
Ma copine a récemment trouvé un emploi dans la vente et le commerce dans une grande banque. Forte de son nouvel emploi, elle croit pouvoir prédire si les stocks augmenteront ou baisseront à la fin du mois plus que le hasard (elle pense même pouvoir le faire avec une précision …
De la page Wikipedia intitulée corrélation n'implique pas de causalité , Pour deux événements corrélés, A et B, les différentes relations possibles incluent: A provoque B (causalité directe); B provoque A (causalité inverse); A et B sont les conséquences d'une cause commune, mais ne se causent pas; A et B …
La régularisation en régression (linéaire, logistique ...) est le moyen le plus utilisé pour réduire le sur-ajustement. Lorsque l'objectif est la précision des prédictions (sans explication), existe-t-il de bonnes alternatives à la régularisation, particulièrement adaptées aux ensembles de données volumineuses (mi / milliards d'observations et millions de fonctionnalités)?
Je voudrais tester l'hypothèse que deux échantillons sont tirés de la même population, sans faire d'hypothèses sur la distribution des échantillons ou la population. Comment dois-je procéder? D'après Wikipédia, j'ai l'impression que le test de Mann Whitney U devrait convenir, mais il ne semble pas fonctionner pour moi dans la …
J'ai essayé de comprendre le concept d'échantillonnage négatif dans le contexte de word2vec. Je suis incapable de digérer l'idée d'un échantillonnage [négatif]. Par exemple, dans les articles de Mikolov, l'attente d'échantillonnage négative est formulée comme suit: Journalσ( ⟨ W , c ⟩ ) + k ⋅ EcN∼ Pré[ journalσ( - …
J'essaie de construire un classificateur multi-étiquettes afin d'affecter des sujets aux documents existants à l'aide de scikit Je suis en train de traiter mes documents en les passant par les TfidfVectorizerétiquettes à travers le MultiLabelBinarizeret en créant un OneVsRestClassifieravec un SGDClassifiercomme estimateur. Cependant, lorsque je teste mon classificateur, je n'obtiens …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.