Questions marquées «data-mining»

Une activité qui recherche des modèles dans de grands ensembles de données complexes. Il met généralement l'accent sur les techniques algorithmiques, mais peut également impliquer tout ensemble de compétences, d'applications ou de méthodologies connexes dans ce but.

13
Regroupement K-Means pour des données numériques et catégoriques mixtes
Mon ensemble de données contient un certain nombre d'attributs numériques et un catégorique. Dis NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, où CategoricalAttrprend l' une des trois valeurs possibles: CategoricalAttrValue1, CategoricalAttrValue2ou CategoricalAttrValue3. J'utilise l'algorithme de clustering k-means par défaut pour Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Cela fonctionne uniquement avec des données numériques. Ma question …




1

6
Comment faire SVD et PCA avec des mégadonnées?
J'ai un grand ensemble de données (environ 8 Go). J'aimerais utiliser l'apprentissage automatique pour l'analyser. Donc, je pense que je devrais utiliser SVD puis PCA pour réduire la dimensionnalité des données pour plus d'efficacité. Cependant, MATLAB et Octave ne peuvent pas charger un ensemble de données aussi volumineux. Quels outils …

3
Coefficient de Gini vs impureté de Gini - Arbres de décision
Le problème se réfère à la construction d'arbres de décision. Selon Wikipedia, le « coefficient de Gini » ne doit pas être confondu avec «l' impureté de Gini ». Cependant, les deux mesures peuvent être utilisées lors de la construction d'un arbre de décision - elles peuvent soutenir nos choix …



4
Signification des caractéristiques latentes?
J'apprends la factorisation matricielle pour les systèmes de recommandation et je vois le terme latent featuresse produire trop fréquemment mais je n'arrive pas à comprendre ce qu'il signifie. Je sais ce qu'est une fonctionnalité mais je ne comprends pas l'idée de fonctionnalités latentes. Pourriez-vous l'expliquer? Ou au moins me diriger …




4
Quel modèle statistique dois-je utiliser pour analyser la probabilité qu'un seul événement influence les données longitudinales
J'essaie de trouver une formule, une méthode ou un modèle à utiliser pour analyser la probabilité qu'un événement spécifique ait influencé certaines données longitudinales. J'ai du mal à trouver quoi rechercher sur Google. Voici un exemple de scénario: Imaginez que vous possédez une entreprise qui compte en moyenne 100 clients …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.