Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Je voudrais étudier des événements rares dans une population finie. Étant donné que je ne sais pas quelle stratégie est la mieux adaptée, j'apprécierais les conseils et les références liés à cette question, bien que je sache bien qu'elle a été largement couverte. Je ne sais pas vraiment par où …
Supposons que nous ayons un scénario de comparaisons multiples tel qu'une inférence post hoc sur des statistiques par paires, ou comme une régression multiple, où nous faisons un total de comparaisons. Supposons également que nous aimerions soutenir l'inférence dans ces multiples en utilisant des intervalles de confiance.mmm 1. Appliquons-nous plusieurs …
Quelqu'un peut-il me dire la différence entre les noyaux dans SVM: Linéaire Polynôme Gaussien (RBF) Sigmoïde Parce que, comme nous le savons, le noyau est utilisé pour mapper notre espace d'entrée dans un espace de fonctionnalité de haute dimensionnalité. Et dans cet espace caractéristique, nous trouvons la frontière séparable linéairement …
Suite à ma question ici , je me demande s'il existe des opinions bien arrêtées pour ou contre l'utilisation de l'écart-type pour détecter les valeurs aberrantes (par exemple, tout point de données supérieur à 2 écarts-types est une valeur aberrante). Je sais que cela dépend du contexte de l'étude, par …
Si et sont deux vecteurs unitaires aléatoires indépendants dans (uniformément répartis sur une sphère unitaire), quelle est la distribution de leur produit scalaire (produit scalaire) ?y R D x ⋅ yxx\mathbf{x}yy\mathbf{y}RDRD\mathbb{R}^Dx⋅yx⋅y\mathbf x \cdot \mathbf y Je suppose que lorsque croît rapidement, la distribution (?) Devient normale avec une moyenne nulle …
Dans l'algorithme de forêt aléatoire, Breiman (auteur) construit la matrice de similarité comme suit: Envoyez tous les exemples d'apprentissage dans chaque arbre de la forêt Si deux exemples atterrissent dans le même incrément de feuille élément correspondant dans la matrice de similarité de 1 Normaliser la matrice avec le nombre …
La validation croisée K-fold peut être utilisée pour estimer la capacité de généralisation d'un classificateur donné. Puis-je (ou devrais-je) également calculer une variance regroupée à partir de tous les cycles de validation afin d'obtenir une meilleure estimation de sa variance? Sinon, pourquoi? J'ai trouvé des articles qui utilisent l'écart-type groupé …
J'exécute un GEE sur des données asymétriques à 3 niveaux, en utilisant un lien logit. En quoi cela diffère-t-il (en termes de conclusions et de signification des coefficients) d'un GLM à effets mixtes (GLMM) et d'un lien logit? Plus de détails: Les observations sont des essais bernoulli uniques. Ils sont …
Une étape de prétraitement courante pour les algorithmes d'apprentissage automatique est le blanchiment des données. Il semble qu'il soit toujours bon de faire du blanchiment car il corréle les données, ce qui le rend plus simple à modéliser. Quand le blanchiment n'est-il pas recommandé? Remarque: je fais référence à la …
Je me demande s'il existe un moyen simple de produire une liste de variables à l'aide d'une boucle for et de donner sa valeur. for(i in 1:3) { noquote(paste("a",i,sep=""))=i } Dans le code ci - dessus, je tente de créer a1, a2, a3qui assignent aux valeurs de 1, 2, 3. …
J'ai appris que je dois tester la normalité non pas sur les données brutes mais sur leurs résidus. Dois-je calculer les résidus et ensuite faire le test W de Shapiro-Wilk? Les résidus sont-ils calculés comme : ?Xje- méchantXi−meanX_i - \text{mean} Veuillez consulter cette question précédente pour mes données et la …
Y a-t-il 99 centiles ou 100 centiles? Et sont-ils des groupes de nombres, ou des lignes de séparation, ou des pointeurs vers des nombres individuels? Je suppose que la même question s'appliquerait aux quartiles ou à tout quantile. J'ai lu que l'indice d'un nombre à un centile particulier (p), étant …
Supposons que je veuille faire une classification binaire (quelque chose appartient à la classe A ou à la classe B). Il existe certaines possibilités pour ce faire dans la couche de sortie d'un réseau de neurones: Utilisez 1 nœud de sortie. La sortie 0 (<0,5) est considérée comme classe A …
Je suis surpris que cela n'ait pas été demandé auparavant, mais je ne trouve pas la question sur stats.stackexchange. Voici la formule pour calculer la variance d'un échantillon normalement distribué: ∑(X−X¯)2n−1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} Voici la formule pour calculer l'erreur quadratique moyenne des observations dans une régression linéaire simple: ∑(yi−y^i)2n−2∑(yi−y^i)2n−2\frac{\sum(y_i …
Quelqu'un peut-il me dire comment juger si un modèle d'apprentissage automatique supervisé est trop adapté ou non? Si je n'ai pas de jeu de données de validation externe, je veux savoir si je peux utiliser la validation croisée ROC de 10 fois pour expliquer le sur-ajustement. Si j'ai un ensemble …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.