Statistiques et Big Data

3

J'ai un jeu de données pour lequel j'ai plusieurs jeux d'étiquettes binaires. Pour chaque ensemble d'étiquettes, je forme un classificateur, en l'évaluant par validation croisée. Je souhaite réduire la dimensionnalité à l'aide de l'analyse en composantes principales (ACP). Ma question est: Est-il possible d'effectuer l'APC une fois pour l'ensemble de …

35 machine-learning classification pca cross-validation

3

Comment interpréter l'OOB et la matrice de confusion pour les forêts aléatoires?

J'ai reçu un script R de quelqu'un pour exécuter un modèle de forêt aléatoire. Je l'ai modifié et l'ai exécuté avec certaines données d'employé. Nous essayons de prédire les séparations volontaires. Voici quelques informations supplémentaires: ceci est un modèle de classification où 0 = employé bloqué, 1 = employé licencié, …

35 r classification error random-forest

5

Comment résoudre le paradoxe de Simpson?

Le paradoxe de Simpson est un casse-tête classique abordé dans les cours d'introduction aux statistiques dans le monde entier. Cependant, mon cours se contentait de noter simplement qu’un problème existait et n’apportait pas de solution. Je voudrais savoir comment résoudre le paradoxe. C’est-à-dire que, face au paradoxe de Simpson, où …

35 simpsons-paradox

2

Quelle est la formule du R-carré ajustée dans lm dans R et comment doit-elle être interprétée?

Quelle est la formule exacte utilisée dans R lm() pour le R au carré ajusté? Comment puis-je l'interpréter? Formules ajustées au carré Il semble exister plusieurs formules pour calculer le R au carré ajusté. Formule de Wherry: 1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} La formule de McNemar: 1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} Formule du Seigneur: 1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} Formule de Stein: …

35 r regression r-squared lm shrinkage

7

Choix de variables à inclure dans un modèle de régression linéaire multiple

Je travaille actuellement à la construction d'un modèle utilisant une régression linéaire multiple. Après avoir manipulé mon modèle, je ne sais pas comment déterminer au mieux les variables à conserver et celles à supprimer. Mon modèle a commencé avec 10 prédicteurs pour le DV. Lors de l'utilisation des 10 prédicteurs, …

35 regression multiple-regression feature-selection modeling model-selection

3

Comment prendre dérivé de la densité normale multivariée?

Disons que j'ai une densité normale multivariée de . Je veux obtenir le deuxième dérivé (partiel) wrt \ mu . Pas sûr de savoir comment prendre dérivé d'une matrice.N(μ,Σ)N(μ,Σ)N(\mu, \Sigma)μμ\mu Le wiki dit prendre le dérivé élément par élément à l'intérieur de la matrice. Je travaille avec l'approximation de Laplace …

35 self-study normal-distribution matrix

2

Qu'est-ce que la symétrie composée en anglais?

J'ai récemment réalisé qu'un modèle mixte avec un seul sujet comme facteur aléatoire et les autres facteurs comme facteurs fixes équivaut à une ANOVA lors de la définition de la structure corrélationnelle du modèle mixte sur une symétrie composée. Par conséquent, j'aimerais savoir ce que signifie la symétrie composée dans …

35 correlation anova mixed-model lme4-nlme

4

Justification du test d'hypothèse unilatéral

Je comprends les tests d’hypothèses bilatéraux. Vous avez (vs ). La est la probabilité que génère des données au moins aussi extrêmes que celles observées.H0:θ=θ0H0:θ=θ0H_0 : \theta = \theta_0H1=¬H0:θ≠θ0H1=¬H0:θ≠θ0H_1 = \neg H_0 : \theta \ne \theta_0pppθθ\theta Je ne comprends pas les tests d'hypothèses unilatéraux. Ici, H0:θ≤θ0H0:θ≤θ0H_0 : \theta\le\theta_0 (vs H1=¬H0:θ>θ0H1=¬H0:θ>θ0H_1 …

35 hypothesis-testing

5

Quelles sont les meilleures pratiques pour identifier les effets d'interaction?

Autre que de tester littéralement chaque combinaison possible de variable (s) dans un modèle ( x1:x2ou x1*x2 ... xn-1 * xn). Comment identifiez-vous si une interaction DEVRAIT ou PEUT exister entre vos variables indépendantes (espérons-le)? Quelles sont les meilleures pratiques pour tenter d'identifier les interactions? Existe-t-il une technique graphique que …

35 regression modeling interaction

5

Qu'est-ce qu'un bon usage de la fonction 'commentaire' dans R?

Je viens de découvrir la commentfonction dans R. Exemple: x <- matrix(1:12, 3,4) comment(x) <- c("This is my very important data from experiment #0234", "Jun 5, 1998") x comment(x) C'est la première fois que j'utilise cette fonction et je me demandais quelles en sont les utilisations courantes / utiles. Puisqu'il …

35 r

6

approximatif en

Je me suis intéressé récemment à la simulation de Monte Carlo et je l’utilise pour approcher des constantes telles que ππ\pi (cercle à l’intérieur d’un rectangle, zone proportionnelle). Cependant, je suis incapable de penser à une méthode correspondante pour approximer la valeur de eee [nombre d'Euler] en utilisant l'intégration de …

35 simulation monte-carlo algorithms random-generation numerical-integration

13

Quels blogs statistiques recommanderiez-vous?

Quels blogs de recherche statistique recommanderiez-vous et pourquoi?

35 references

3

Les couches de regroupement sont-elles ajoutées avant ou après les couches de suppression?

Je crée un réseau de neurones à convolution (CNN) dans lequel j'ai une couche de convolution suivie par une couche de mise en commun et je souhaite appliquer la suppression pour réduire le surajustement. J'ai le sentiment que la couche de suppression devrait être appliquée après la couche de mise …

35 deep-learning conv-neural-network dropout

5

Pourquoi l'augmentation de la taille de l'échantillon réduit-elle la variance (d'échantillonnage)?

Grande image: J'essaie de comprendre comment l'augmentation de la taille de l'échantillon augmente la puissance d'une expérience. Les diapositives de mon conférencier expliquent cela avec une image de 2 distributions normales, une pour l'hypothèse nulle et une pour l'hypothèse alternative et un seuil de décision c entre elles. Ils font …

35 variance sampling power

1

Détection des valeurs aberrantes dans les séries chronologiques (LS / AO / TC) à l'aide du paquet tsoutliers en R. Comment représenter les valeurs aberrantes au format équation?

Commentaires: Tout d' abord je voudrais dire un grand merci à l' auteur du nouveau tsoutliers paquet qui met en œuvre de Chen et Liu séries temporelles de détection des valeurs aberrantes qui a été publiée dans le Journal de l'American Statistical Association en 1993 dans le logiciel Open Source …

35 time-series forecasting arima outliers