Statistiques et Big Data binary-data

1

Quelle est l'intuition derrière les échantillons échangeables sous l'hypothèse nulle?

Les tests de permutation (également appelés test de randomisation, test de re-randomisation ou test exact) sont très utiles et s'avèrent utiles lorsque l'hypothèse de distribution normale requise par exemple t-testn'est pas remplie et lorsque la transformation des valeurs par classement des un test non paramétrique comme Mann-Whitney-U-testcela entraînerait la perte …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

5

Comment faire une classification de texte à une classe?

Je dois faire face à un problème de classification de texte. Un robot d'indexation analyse des pages Web d'un certain domaine et pour chaque page Web, je veux savoir si elle appartient à une seule classe spécifique ou non. Autrement dit, si j'appelle cette classe positive , chaque page Web …

14 classification text-mining naive-bayes binary-data

1

Recherche d'une étape dans un exemple d'analyse factorielle sur des données dichotomiques (variables binaires) à l'aide de R

J'ai quelques données dichotomiques, seulement des variables binaires, et mon patron m'a demandé d'effectuer une analyse factorielle en utilisant la matrice de corrélations tétrachoriques. J'ai déjà pu m'apprendre à exécuter différentes analyses sur la base des exemples ici et sur le site de statistiques de l' UCLA et d'autres sites …

14 r factor-analysis psychometrics binary-data

1

Partitionnement de la variance et changements longitudinaux de corrélation avec les données binaires

J'analyse des données sur 300 000 élèves dans 175 écoles avec un modèle logistique linéaire à effets mixtes (interceptions aléatoires). Chaque élève se produit exactement une fois et les données s'étalent sur 6 ans. Comment répartir la variance entre les niveaux de l'école et des élèves, d'une manière similaire au …

14 mixed-model binary-data

3

Quel est l'effet de la dichotomisation des variables?

Lors de la dichotomisation des variables, quelles informations sont perdues dans le processus? Comment une dichotomisation aide-t-elle dans les analyses?

14 regression data-transformation binary-data

2

Existe-t-il un package R pour les réponses binaires longitudinales à temps continu?

Le bildpackage semble être un excellent package pour les réponses binaires en série. Mais c'est pour un temps discret. Je voudrais spécifier une fonction lisse du temps pour la connexion du rapport de cotes de la réponse actuelle Y avec des réponses binaires mesurées à des moments antérieurs, ou au …

13 r repeated-measures binary-data panel-data

1

LARS vs descente coordonnée pour le lasso

Quels sont les avantages et les inconvénients de l'utilisation de LARS [1] par rapport à l'utilisation de la descente de coordonnées pour ajuster la régression linéaire régularisée L1? Je m'intéresse principalement aux aspects de performance (mes problèmes ont tendance à avoir Ndes centaines de milliers et p<20). Cependant, toute autre …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

Comment choisir la largeur optimale du bac tout en calibrant les modèles de probabilité?

Contexte: Il y a ici d'excellentes questions / réponses sur la façon d'étalonner les modèles qui prédisent les probabilités qu'un résultat se produise. Par exemple Le score de Brier et sa décomposition en résolution, incertitude et fiabilité . Tracés d'étalonnage et régression isotonique . Ces méthodes nécessitent souvent l'utilisation d'une …

12 probability predictive-models binary-data calibration scoring-rules

4

Prévision de séries chronologiques binaires

J'ai une série temporelle binaire avec 1 lorsque la voiture ne bouge pas et 0 lorsque la voiture se déplace. Je veux faire une prévision pour un horizon temporel jusqu'à 36 heures à l'avance et pour chaque heure. Ma première approche a été d'utiliser un Naive Bayes en utilisant les …

12 r time-series forecasting binary-data

2

optimisation auc vs logloss dans les problèmes de classification binaire

J'effectue une tâche de classification binaire où la probabilité de résultat est assez faible (environ 3%). J'essaie de décider s'il faut optimiser par AUC ou perte de journal. Autant que j'ai compris, l'AUC maximise la capacité du modèle à discriminer entre les classes tandis que la perte de log pénalise …

12 classification binary-data auc log-loss

2

Probit moindres carrés en deux étapes (2SLS)

On m'a dit qu'il était possible d'effectuer une régression IV en deux étapes où la première étape est un probit et la deuxième étape est une OLS. Est-il possible d'utiliser 2SLS si la première étape est un probit mais la deuxième étape est un modèle probit / poisson?

12 binary-data instrumental-variables probit 2sls

4

Régression logistique et point d'inflexion

Nous avons des données avec un résultat binaire et quelques covariables. J'ai utilisé la régression logistique pour modéliser les données. Juste une simple analyse, rien d'extraordinaire. La sortie finale est supposée être une courbe dose-réponse où nous montrons comment la probabilité change pour une covariable spécifique. Quelque chose comme ça: …

12 regression logistic generalized-linear-model binary-data

3

Comment puis-je tester si mon clustering de données binaires est significatif

Je fais des analyses de panier mon ensemble de données est un ensemble de vecteurs de transaction, avec les articles que les produits sont achetés. Lors de l'application de k-means sur les transactions, j'obtiendrai toujours un résultat. Une matrice aléatoire montrerait probablement aussi quelques grappes. Existe-t-il un moyen de tester …

12 clustering statistical-significance binary-data

1

R / mgcv: Pourquoi les produits tenseurs te () et ti () produisent-ils des surfaces différentes?

Le mgcvpackage pour Ra deux fonctions pour ajuster les interactions des produits tensoriels: te()et ti(). Je comprends la division de base du travail entre les deux (ajustement d'une interaction non linéaire vs décomposition de cette interaction en effets principaux et interaction). Ce que je ne comprends pas, c'est pourquoi te(x1, …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

Quel algorithme dois-je utiliser pour regrouper un énorme ensemble de données binaires en quelques catégories?

J'ai une grande matrice (650K lignes * 62 colonnes) de données binaires (0-1 entrées uniquement). La matrice est généralement clairsemée: environ 8% est remplie. Je voudrais le regrouper en 5 groupes - disons nommés de 1 à 5. J'ai essayé le regroupement hiérarchique et il n'a pas pu gérer la …

11 clustering dataset k-means binary-data

Questions marquées «binary-data»