Statistiques et Big Data

5

Stratégie de gestion de la régression logistique des événements rares

Je voudrais étudier des événements rares dans une population finie. Étant donné que je ne sais pas quelle stratégie est la mieux adaptée, j'apprécierais les conseils et les références liés à cette question, bien que je sache bien qu'elle a été largement couverte. Je ne sais pas vraiment par où …

27 logistic rare-events

2

Faut-il aborder les ajustements de comparaisons multiples lors de l'utilisation des intervalles de confiance?

Supposons que nous ayons un scénario de comparaisons multiples tel qu'une inférence post hoc sur des statistiques par paires, ou comme une régression multiple, où nous faisons un total de comparaisons. Supposons également que nous aimerions soutenir l'inférence dans ces multiples en utilisant des intervalles de confiance.mmm 1. Appliquons-nous plusieurs …

27 confidence-interval multiple-comparisons inference

4

La différence des noyaux dans SVM?

Quelqu'un peut-il me dire la différence entre les noyaux dans SVM: Linéaire Polynôme Gaussien (RBF) Sigmoïde Parce que, comme nous le savons, le noyau est utilisé pour mapper notre espace d'entrée dans un espace de fonctionnalité de haute dimensionnalité. Et dans cet espace caractéristique, nous trouvons la frontière séparable linéairement …

27 machine-learning svm pattern-recognition kernel-trick

4

Détection des valeurs aberrantes à l'aide des écarts-types

Suite à ma question ici , je me demande s'il existe des opinions bien arrêtées pour ou contre l'utilisation de l'écart-type pour détecter les valeurs aberrantes (par exemple, tout point de données supérieur à 2 écarts-types est une valeur aberrante). Je sais que cela dépend du contexte de l'étude, par …

27 outliers

3

Distribution des produits scalaires de deux vecteurs unitaires aléatoires en dimensions

Si et sont deux vecteurs unitaires aléatoires indépendants dans (uniformément répartis sur une sphère unitaire), quelle est la distribution de leur produit scalaire (produit scalaire) ?y R D x ⋅ yxx\mathbf{x}yy\mathbf{y}RDRD\mathbb{R}^Dx⋅yx⋅y\mathbf x \cdot \mathbf y Je suppose que lorsque croît rapidement, la distribution (?) Devient normale avec une moyenne nulle …

27 mathematical-statistics linear-algebra beta-distribution

1

Conversion de la matrice de similarité en matrice de distance (euclidienne)

Dans l'algorithme de forêt aléatoire, Breiman (auteur) construit la matrice de similarité comme suit: Envoyez tous les exemples d'apprentissage dans chaque arbre de la forêt Si deux exemples atterrissent dans le même incrément de feuille élément correspondant dans la matrice de similarité de 1 Normaliser la matrice avec le nombre …

27 random-forest distance similarities euclidean

2

Estimations de la variance dans la validation croisée multipliée par k

La validation croisée K-fold peut être utilisée pour estimer la capacité de généralisation d'un classificateur donné. Puis-je (ou devrais-je) également calculer une variance regroupée à partir de tous les cycles de validation afin d'obtenir une meilleure estimation de sa variance? Sinon, pourquoi? J'ai trouvé des articles qui utilisent l'écart-type groupé …

27 machine-learning cross-validation

1

Quelle est la différence entre les équations d'estimation généralisées et le GLMM?

J'exécute un GEE sur des données asymétriques à 3 niveaux, en utilisant un lien logit. En quoi cela diffère-t-il (en termes de conclusions et de signification des coefficients) d'un GLM à effets mixtes (GLMM) et d'un lien logit? Plus de détails: Les observations sont des essais bernoulli uniques. Ils sont …

27 logistic mixed-model generalized-linear-model interpretation gee

3

Le blanchiment est-il toujours bon?

Une étape de prétraitement courante pour les algorithmes d'apprentissage automatique est le blanchiment des données. Il semble qu'il soit toujours bon de faire du blanchiment car il corréle les données, ce qui le rend plus simple à modéliser. Quand le blanchiment n'est-il pas recommandé? Remarque: je fais référence à la …

27 data-transformation

2

Produire une liste de noms de variables dans une boucle for, puis leur attribuer des valeurs

Je me demande s'il existe un moyen simple de produire une liste de variables à l'aide d'une boucle for et de donner sa valeur. for(i in 1:3) { noquote(paste("a",i,sep=""))=i } Dans le code ci - dessus, je tente de créer a1, a2, a3qui assignent aux valeurs de 1, 2, 3. …

27 r

3

Que dois-je vérifier pour la normalité: données brutes ou résidus?

J'ai appris que je dois tester la normalité non pas sur les données brutes mais sur leurs résidus. Dois-je calculer les résidus et ensuite faire le test W de Shapiro-Wilk? Les résidus sont-ils calculés comme : ?Xje- méchantXi−meanX_i - \text{mean} Veuillez consulter cette question précédente pour mes données et la …

27 normality-assumption residuals assumptions

5

Y a-t-il 99 centiles ou 100 centiles? Et sont-ils des groupes de nombres, ou des diviseurs ou des pointeurs vers des nombres individuels?

Y a-t-il 99 centiles ou 100 centiles? Et sont-ils des groupes de nombres, ou des lignes de séparation, ou des pointeurs vers des nombres individuels? Je suppose que la même question s'appliquerait aux quartiles ou à tout quantile. J'ai lu que l'indice d'un nombre à un centile particulier (p), étant …

27 quantiles

2

Réseau de neurones: pour la classification binaire, utiliser 1 ou 2 neurones de sortie?

Supposons que je veuille faire une classification binaire (quelque chose appartient à la classe A ou à la classe B). Il existe certaines possibilités pour ce faire dans la couche de sortie d'un réseau de neurones: Utilisez 1 nœud de sortie. La sortie 0 (<0,5) est considérée comme classe A …

27 machine-learning classification neural-networks

2

Quelle est la différence entre la variance et l'erreur quadratique moyenne?

Je suis surpris que cela n'ait pas été demandé auparavant, mais je ne trouve pas la question sur stats.stackexchange. Voici la formule pour calculer la variance d'un échantillon normalement distribué: ∑(X−X¯)2n−1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} Voici la formule pour calculer l'erreur quadratique moyenne des observations dans une régression linéaire simple: ∑(yi−y^i)2n−2∑(yi−y^i)2n−2\frac{\sum(y_i …

27 variance error

3

Comment juger si un modèle d'apprentissage automatique supervisé est sur-adapté ou non?

Quelqu'un peut-il me dire comment juger si un modèle d'apprentissage automatique supervisé est trop adapté ou non? Si je n'ai pas de jeu de données de validation externe, je veux savoir si je peux utiliser la validation croisée ROC de 10 fois pour expliquer le sur-ajustement. Si j'ai un ensemble …

27 machine-learning