Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données


2
Faut-il aborder les ajustements de comparaisons multiples lors de l'utilisation des intervalles de confiance?
Supposons que nous ayons un scénario de comparaisons multiples tel qu'une inférence post hoc sur des statistiques par paires, ou comme une régression multiple, où nous faisons un total de comparaisons. Supposons également que nous aimerions soutenir l'inférence dans ces multiples en utilisant des intervalles de confiance.mmm 1. Appliquons-nous plusieurs …

4
La différence des noyaux dans SVM?
Quelqu'un peut-il me dire la différence entre les noyaux dans SVM: Linéaire Polynôme Gaussien (RBF) Sigmoïde Parce que, comme nous le savons, le noyau est utilisé pour mapper notre espace d'entrée dans un espace de fonctionnalité de haute dimensionnalité. Et dans cet espace caractéristique, nous trouvons la frontière séparable linéairement …

4
Détection des valeurs aberrantes à l'aide des écarts-types
Suite à ma question ici , je me demande s'il existe des opinions bien arrêtées pour ou contre l'utilisation de l'écart-type pour détecter les valeurs aberrantes (par exemple, tout point de données supérieur à 2 écarts-types est une valeur aberrante). Je sais que cela dépend du contexte de l'étude, par …
27 outliers 

3
Distribution des produits scalaires de deux vecteurs unitaires aléatoires en dimensions
Si et sont deux vecteurs unitaires aléatoires indépendants dans (uniformément répartis sur une sphère unitaire), quelle est la distribution de leur produit scalaire (produit scalaire) ?y R D x ⋅ yxx\mathbf{x}yy\mathbf{y}RDRD\mathbb{R}^Dx⋅yx⋅y\mathbf x \cdot \mathbf y Je suppose que lorsque croît rapidement, la distribution (?) Devient normale avec une moyenne nulle …




3
Le blanchiment est-il toujours bon?
Une étape de prétraitement courante pour les algorithmes d'apprentissage automatique est le blanchiment des données. Il semble qu'il soit toujours bon de faire du blanchiment car il corréle les données, ce qui le rend plus simple à modéliser. Quand le blanchiment n'est-il pas recommandé? Remarque: je fais référence à la …





2
Quelle est la différence entre la variance et l'erreur quadratique moyenne?
Je suis surpris que cela n'ait pas été demandé auparavant, mais je ne trouve pas la question sur stats.stackexchange. Voici la formule pour calculer la variance d'un échantillon normalement distribué: ∑(X−X¯)2n−1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} Voici la formule pour calculer l'erreur quadratique moyenne des observations dans une régression linéaire simple: ∑(yi−y^i)2n−2∑(yi−y^i)2n−2\frac{\sum(y_i …
27 variance  error 


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.