Statistiques et Big Data binary-data

10

Mesure de l'entropie / informations / motifs d'une matrice binaire 2D

Je veux mesurer l'entropie / densité d'information / ressemblance-motif d'une matrice binaire à deux dimensions. Permettez-moi de montrer quelques images pour clarification: Cet affichage devrait avoir une entropie assez élevée: UNE) Cela devrait avoir une entropie moyenne: B) Enfin, ces images devraient toutes avoir une entropie proche de zéro: C) …

53 algorithms binary-data entropy pattern-recognition information

6

Classification binaire avec des classes fortement déséquilibrées

J'ai un ensemble de données sous la forme de (fonctionnalités, sortie binaire 0 ou 1), mais 1 arrive assez rarement, donc juste en prédisant toujours 0, j'obtiens une précision comprise entre 70% et 90% (en fonction des données que je regarde) ). Les méthodes ML me donnent à peu près …

52 machine-learning classification binary-data unbalanced-classes

4

Seuil de probabilité de classification

J'ai une question concernant la classification en général. Soit f un classificateur, qui donne un ensemble de probabilités à partir de données D. Normalement, on dirait: si P (c | D)> 0.5, nous assignerons une classe 1, sinon 0 (que ce soit un binaire classification). Ma question est la suivante: …

49 machine-learning classification binary-data threshold

3

Est-il utile de calculer la corrélation de Pearson ou de Spearman entre deux vecteurs booléens?

Il existe deux vecteurs booléens, qui contiennent uniquement 0 et 1. Si je calcule la corrélation de Pearson ou de Spearman, sont-elles significatives ou raisonnables?

42 correlation binary-data pearson-r spearman-rho

3

PCA fonctionnerait-il pour les types de données booléens (binaires)?

Je souhaite réduire la dimensionnalité des systèmes d'ordre supérieur et capturer l'essentiel de la covariance sur un champ de préférence à 2 dimensions ou à 1 dimension. Je comprends que cela peut être fait via l’analyse en composantes principales et j’ai utilisé PCA dans de nombreux scénarios. Cependant, je ne …

38 pca data-visualization binary-data dimensionality-reduction correspondence-analysis

1

Faire une analyse en composantes principales ou une analyse factorielle sur des données binaires

J'ai un ensemble de données avec un grand nombre de réponses Oui / Non. Puis- je utiliser les composants principaux (ACP) ou toute autre analyse de réduction des données (comme l'analyse factorielle) pour ce type de données? Veuillez indiquer comment je procède à l'aide de SPSS.

30 spss categorical-data pca factor-analysis binary-data

1

Existe-t-il une analyse factorielle ou une ACP pour les données ordinales ou binaires?

J'ai terminé l'analyse en composantes principales (PCA), l'analyse factorielle exploratoire (EFA) et l'analyse factorielle confirmatoire (CFA), en traitant les données avec une échelle de likert (réponses à 5 niveaux: aucune, un peu, certaines, ..) en continu variable. Ensuite, en utilisant Lavaan, j'ai répété le CFA définissant les variables comme catégoriques. …

28 pca factor-analysis ordinal-data binary-data likert

2

Comment utiliser les variables binaires et continues ensemble dans le clustering?

J'ai besoin d'utiliser des variables binaires (valeurs 0 et 1) dans k-means. Mais k-means ne fonctionne qu'avec des variables continues. Je sais que certaines personnes utilisent encore ces variables binaires dans k-means en ignorant le fait que k-means n'est conçu que pour des variables continues. C'est inacceptable pour moi. Des …

27 r clustering binary-data k-means mixed-type-data

7

Pourquoi le sexe est-il généralement codé 0/1 plutôt que 1/2, par exemple?

Je comprends la logique du codage pour l'analyse des données. Ma question ci-dessous concerne l'utilisation d'un code spécifique. Y a-t-il une raison pour laquelle le sexe est souvent codé 0 pour les femmes et 1 pour les hommes? Pourquoi ce codage est-il considéré comme «standard»? Comparez cela avec Femelle = …

25 data-transformation binary-data categorical-encoding units

5

Devriez-vous jamais standardiser des variables binaires?

J'ai un ensemble de données avec un ensemble de fonctionnalités. Certains d'entre eux sont binaires actif ou renvoyé, inactif ou dormant), et les autres ont une valeur réelle, par exemple .( 1 =(1=(1=0 =0=0=4564.3424564.3424564.342 Je veux alimenter ces données à un algorithme d'apprentissage automatique, donc je -score toutes les fonctionnalités …

25 machine-learning normalization binary-data

3

Visualisation de l'étalonnage de la probabilité prédite d'un modèle

Supposons que j'ai un modèle prédictif qui produit, pour chaque instance, une probabilité pour chaque classe. Je reconnais maintenant qu'il existe de nombreuses façons d'évaluer un tel modèle si je veux utiliser ces probabilités pour la classification (précision, rappel, etc.). Je reconnais également qu'une courbe ROC et l'aire sous-jacente peuvent …

23 data-visualization classification predictive-models binary-data calibration

3

Générer des données corrélées aléatoires entre une variable binaire et une variable continue

Je veux générer deux variables. L'un est une variable de résultat binaire (disons succès / échec) et l'autre est l'âge en années. Je veux que l'âge soit en corrélation positive avec le succès. Par exemple, il devrait y avoir plus de succès dans les tranches d'âge supérieures que dans les …

23 correlation random-variable random-generation binary-data

2

Regroupement d'une matrice binaire

J'ai une matrice semi-petite de caractéristiques binaires de dimension 250k x 100. Chaque ligne est un utilisateur et les colonnes sont des "balises" binaires d'un certain comportement d'utilisateur, par exemple "likes_cats". user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 …

22 r clustering binary-data

2

Coefficients de similitude pour les données binaires: pourquoi choisir Jaccard plutôt que Russell et Rao?

D'après l' Encyclopedia of Statistical Sciences, je comprends que, étant donné attributs dichotomiques (binaires: 1 = présents; 0 = absents) (variables), nous pouvons former un tableau de contingence pour deux objets i et j quelconques d'un échantillon:ppp j 1 0 ------- 1 | a | b | i ------- 0 …

20 binary-data similarities association-measure

4

La précision de la machine augmentant le gradient diminue à mesure que le nombre d'itérations augmente

J'expérimente l'algorithme de la machine de renforcement de gradient via le caretpackage en R. À l'aide d'un petit ensemble de données d'admission à l'université, j'ai exécuté le code suivant: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

Questions marquées «binary-data»