Questions marquées «clustering»

L'analyse de cluster consiste à partitionner les données en sous-ensembles d'objets en fonction de leur «similitude» mutuelle, sans utiliser de connaissances préexistantes telles que les étiquettes de classe. [Les erreurs standard groupées et / ou les échantillons de cluster doivent être étiquetés comme tels; N'utilisez PAS la balise "clustering" pour eux.]

1
Une routine pour choisir eps et minPts pour DBSCAN
DBSCAN est l'algorithme de clustering le plus cité selon certaines publications et il peut trouver des clusters de formes arbitraires en fonction de la densité. Il a deux paramètres eps (comme rayon de voisinage) et minPts (comme voisins minimum pour considérer un point comme point central) dont je crois que …





1
État de l'art en matière de déduplication
Quelles sont les méthodes de pointe en matière de déduplication des enregistrements? La déduplication est aussi parfois appelée: couplage d'enregistrements, résolution d'entité, résolution d'identité, fusion / purge. Je connais par exemple CBLOCK [1]. J'apprécierais que les réponses incluent également des références aux logiciels existants mettant en œuvre les méthodes. Je …



4
Initialisation des centres K-means au moyen de sous-échantillons aléatoires de l'ensemble de données?
Si j'ai un certain ensemble de données, comment serait-il intelligent d'initialiser des centres de cluster à l'aide d'échantillons aléatoires de cet ensemble de données? Par exemple, supposons que je veuille 5 clusters. Je prends la 5 random samplesparole size=20%de l'ensemble de données d'origine. Puis-je alors prendre la moyenne de chacun …

2
Utilisation d'un test de signification statistique pour valider les résultats de l'analyse de grappes
J'étudie l'utilisation des tests de signification statistique (SST) pour valider les résultats de l'analyse en grappes. J'ai trouvé plusieurs articles sur ce sujet, tels que « Signification statistique du regroupement pour les données de grande taille et de faible taille d'échantillon » par Liu, Yufeng et al. (2008) " Sur …

2
Comprendre les comparaisons des résultats de clustering
J'expérimente avec la classification des données en groupes. Je suis assez nouveau sur ce sujet et j'essaie de comprendre le résultat de certaines analyses. En utilisant des exemples de Quick-R , plusieurs Rpackages sont suggérés. J'ai essayé d'utiliser deux de ces packages (en fpcutilisant la kmeansfonction, et mclust). Un aspect …
13 r  clustering 

1
LARS vs descente coordonnée pour le lasso
Quels sont les avantages et les inconvénients de l'utilisation de LARS [1] par rapport à l'utilisation de la descente de coordonnées pour ajuster la régression linéaire régularisée L1? Je m'intéresse principalement aux aspects de performance (mes problèmes ont tendance à avoir Ndes centaines de milliers et p<20). Cependant, toute autre …

4
L'inégalité triangulaire est-elle satisfaite pour ces distances basées sur la corrélation?
Pour le clustering hiérarchique, je vois souvent les deux "métriques" suivantes (elles ne parlent pas exactement) pour mesurer la distance entre deux variables aléatoires et Y : XXXOuiYY\newcommand{\Cor}{\mathrm{Cor}} L'un ou l'autre remplit-il l'inégalité du triangle? Si oui, comment dois-je le prouver autrement que simplement faire un calcul de force brute? …



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.