Dans The Elements of Statistical Learning , j'ai trouvé l'énoncé suivant: Il y a une qualification: les étapes initiales de dépistage non supervisé peuvent être effectuées avant de laisser des échantillons. Par exemple, nous pourrions sélectionner les 1000 prédicteurs présentant la variance la plus élevée parmi les 50 échantillons, avant …
J'essaie de regrouper différents ensembles de données en utilisant des algorithmes non supervisés (clustering). Le problème est que j'ai de nombreuses fonctionnalités (~ 500) et une petite quantité de cas (200-300). Jusqu'à présent, je ne faisais que des problèmes de classification pour lesquels j'avais toujours étiqueté les données comme des …
Mon objectif est d'analyser les journaux du réseau (par exemple, Apache, syslog, audit de sécurité Active Directory, etc.) à l'aide de la détection de cluster / anomalie à des fins de détection d'intrusion. Dans les journaux, j'ai beaucoup de champs de texte comme l'adresse IP, le nom d'utilisateur, le nom …
Supposons que j'ai des données longitudinales de la forme (j'ai plusieurs observations, ce n'est que la forme d'une seule). Je suis intéressé par les restrictions sur . Un sans restriction équivaut à prendre avec .Y =( Y1, … , YJ) ∼ N( μ , Σ )Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, …
Supposons que j'ai un échantillon de fréquences de 4 événements possibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 et j'ai les probabilités attendues que mes événements se produisent: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Avec la somme des fréquences …
Je suis confus au sujet de l'analyse de permutation pour la sélection d'entités dans un contexte de régression logistique. Pourriez-vous fournir une explication claire du test de permutation aléatoire et comment s'applique-t-il à la sélection des fonctionnalités? Peut-être avec un algorithme et des exemples exacts. Enfin, comment se compare-t-il aux …
Mon ensemble de données comprend la mortalité totale ou la survie d'un organisme sur trois types de sites: côtier, médian et extracôtier. Les nombres dans le tableau ci-dessous représentent le nombre de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Je voudrais savoir si …
Est-il possible d'utiliser l'analyse du composant principal du noyau (kPCA) pour l'indexation sémantique latente (LSI) de la même manière que PCA est utilisé? J'exécute LSI dans R en utilisant la prcompfonction PCA et j'extrais les caractéristiques avec les charges les plus élevées à partir des premiers composants. Par cela, j'obtiens …
Dans un article que je lisais récemment, je suis tombé sur le morceau suivant dans leur section d'analyse des données: Le tableau de données a ensuite été divisé en tissus et lignées cellulaires, et les deux sous-tableaux ont été polis séparément (les lignes et les colonnes ont été ajustées de …
Pour la sélection des prédicteurs en régression linéaire multivariée avec prédicteurs appropriés, quelles méthodes sont disponibles pour trouver un sous-ensemble «optimal» des prédicteurs sans tester explicitement tous les sous-ensembles de ? Dans 'Applied Survival Analysis', Hosmer et Lemeshow font référence à la méthode de Kuk, mais je ne trouve pas …
J'ai observé que la fonction lasso dans MATLAB est relativement lente. Je gère de nombreux problèmes de régression, avec généralement 1 à 100 prédicteurs et 200 à 500 observations. Dans certains cas, le lasso s'est avéré extrêmement lent (pour résoudre un problème de régression, il a fallu plusieurs minutes). J'ai …
Je veux former un réseau neuronal avec une séquence de caractères comme vecteur d'entrée. Les exemples d'apprentissage ont une longueur différente et pour cette raison, je ne sais pas comment les représenter. Disons que j'ai deux exemples de séquences, voici des noms: john doe maurice delanoe Le premier exemple est …
Comment utiliser la sortie d'une analyse en composantes principales (ACP) dans un modèle linéaire généralisé (GLM), en supposant que l'ACP est utilisée pour la sélection des variables pour le GLM? Clarification: je veux utiliser PCA pour éviter d'utiliser des variables corrélées dans le GLM. Cependant, PCA me donne une sortie …
Envisagez une régression linéaire multiple. Cette question peut être d'une simplicité trompeuse, mais j'essaie de comprendre intuitivement pourquoi, disons que si j'ai des prédicteurs X1 et X2, les interactions entre ces prédicteurs peuvent être correctement capturées par X1 * X2. Je sais que les termes d'interaction sont modélisés comme des …
Je cherche à estimer un GLM hiérarchique mais avec une sélection de caractéristiques pour déterminer quelles covariables sont pertinentes au niveau de la population à inclure. Supposons que j'ai GGG groupes avec NNN observations et KKKcovariables possibles C'est-à-dire que j'ai une matrice de conception de covariables , résultats . Les …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.