Recherche d'une structure cachée (statistique) dans des données non étiquetées, y compris le regroupement et l'extraction d'entités pour la réduction de la dimensionnalité.
Dans " Réseaux de croyances profondes convolutionnelles pour un apprentissage évolutif et non supervisé des représentations hiérarchiques " par Lee et. ( PDF ) Des DBN convolutifs sont proposés. La méthode est également évaluée pour la classification des images. Cela semble logique, car il existe des caractéristiques naturelles de l'image …
J'ai un GLMM du formulaire: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Lorsque j'utilise drop1(model, test="Chi"), j'obtiens des résultats différents de ceux que j'utilise à Anova(model, type="III")partir du package de voiture ou summary(model). Ces deux derniers donnent les mêmes réponses. En utilisant un …
J'étudie actuellement la visualisation de données de grande dimension à l'aide de t-SNE. J'ai quelques données avec des variables binaires et continues mixtes et les données semblent regrouper les données binaires beaucoup trop facilement. Bien sûr, cela est prévu pour les données échelonnées (entre 0 et 1): la distance euclidienne …
Ainsi, avoir une "idée" du nombre optimal de clusters dans k-means est bien documenté. J'ai trouvé un article sur comment faire ça dans des mélanges gaussiens, mais pas sûr que j'en sois convaincu, je ne le comprends pas très bien. Existe-t-il une manière ... plus douce de procéder?
Lorsque nous procédons à la classification et à la régression, nous définissons généralement des ensembles de tests et de formation pour nous aider à créer et à améliorer des modèles. Cependant, lorsque nous faisons du clustering, devons-nous également définir des ensembles de tests et de formation? Pourquoi?
Exemples: J'ai une phrase dans la description de poste: "Java senior engineer in UK". Je veux utiliser un modèle d'apprentissage profond pour le prédire en 2 catégories: English et IT jobs. Si j'utilise un modèle de classification traditionnel, il ne peut prédire qu'une seule étiquette avec softmaxfonction à la dernière …
J'essaie de regrouper différents ensembles de données en utilisant des algorithmes non supervisés (clustering). Le problème est que j'ai de nombreuses fonctionnalités (~ 500) et une petite quantité de cas (200-300). Jusqu'à présent, je ne faisais que des problèmes de classification pour lesquels j'avais toujours étiqueté les données comme des …
Les réseaux de codage automatique semblent être beaucoup plus délicats que les réseaux MLP classificateurs normaux. Après plusieurs tentatives d'utilisation de la lasagne, tout ce que j'obtiens dans la sortie reconstruite ressemble à son mieux à une moyenne floue de toutes les images de la base de données MNIST sans …
Mon objectif est d'analyser les journaux du réseau (par exemple, Apache, syslog, audit de sécurité Active Directory, etc.) à l'aide de la détection de cluster / anomalie à des fins de détection d'intrusion. Dans les journaux, j'ai beaucoup de champs de texte comme l'adresse IP, le nom d'utilisateur, le nom …
Mon ensemble de données comprend la mortalité totale ou la survie d'un organisme sur trois types de sites: côtier, médian et extracôtier. Les nombres dans le tableau ci-dessous représentent le nombre de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Je voudrais savoir si …
Pour un classifieur multi-classes probabiliste, nous pouvons obtenir des probabilités d'appartenance d'un nouveau point à chaque classe ; dans le cas de 3 classes supposons que nous obtenons , donc la classe la plus probable de x est . Supposons maintenant que nous ayons un svm multi-classes où nous pouvons …
J'ai un ensemble de données contenant l'activité de l'utilisateur avec 168 dimensions, où je veux extraire des clusters en utilisant un apprentissage non supervisé. Il n'est pas évident pour moi d'utiliser une approche de modélisation de sujet dans l'allocation de Dirichlet latent (LDA) ou les modèles de mélange gaussiens (GMM), …
Dans les méthodes de clustering telles que K-means , la distance euclidienne est la métrique à utiliser. Par conséquent, nous calculons uniquement les valeurs moyennes au sein de chaque cluster. Et puis des ajustements sont effectués sur les éléments en fonction de leur distance à chaque valeur moyenne. Je me …
Pour une application, je souhaite regrouper des données (potentiellement de grande dimension) et extraire la probabilité d'appartenir à un cluster. Je considère en ce moment des cartes auto-organisées ou des k-moyens du noyau pour faire le travail. Quels sont les avantages et les inconvénients de chaque classificateur pour cette tâche? …
Je suis récemment entré dans le domaine de l'apprentissage automatique et un projet sur lequel je travaille m'oblige à regrouper les utilisateurs en fonction de l'ordre dans lequel ils ont visité les pages Web sur un site Web. J'ai des données sous forme de: ['user_id', 1, 2, 4, 6, 3, …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.