Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données






1
Les statistiques de validation croisée (CV) et de validation croisée généralisée (GCV)
J'ai trouvé des définitions potentiellement contradictoires pour la statistique de validation croisée (CV) et pour la statistique de validation croisée généralisée (GCV) associée à un modèle linéaire (avec un vecteur d'erreur homoscédastique normal ).εOui= Xβ + εOui=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilonεε\boldsymbol\varepsilon D'une part, Golub, Heath & Wahba définissent l'estimation GCV …

2
CHAID vs CRT (ou CART)
J'exécute une classification d'arbre de décision en utilisant SPSS sur un ensemble de données avec environ 20 prédicteurs (catégorique avec quelques catégories). CHAID (Détection automatique d'interaction chi carré) et CRT / CART (Arbres de classification et de régression) me donnent des arbres différents. Quelqu'un peut-il expliquer les mérites relatifs de …
23 spss  cart 



3
Student t as mixture of gaussian
Utilisation de la distribution t de Student avec k>0k>0k > 0 degrés de liberté, paramètre de localisation et paramètre d'échelle ayant une densitéslllsss Γ(k+12)Γ(k2kπs2−−−−√){1+k−1(x−ls)}−(k+1)/2,Γ(k+12)Γ(k2kπs2){1+k−1(x−ls)}−(k+1)/2,\frac{\Gamma \left(\frac{k+1}{2}\right)}{\Gamma\left(\frac{k}{2}\sqrt{k \pi s^2}\right)} \left\{ 1 + k^{-1}\left( \frac{x-l}{s}\right)\right\}^{-(k+1)/2}, comment montrer que la distribution Student peut être écrite comme un mélange de distributions gaussiennes en laissant , …

2
Moyenne bayésienne au bâton avant
Je voulais poser une question inspirée d' une excellente réponse à la question sur l'intuition pour la distribution bêta. Je voulais mieux comprendre la dérivation de la distribution précédente de la moyenne au bâton. Il semble que David recule les paramètres de la moyenne et de la plage. En supposant …
23 bayesian  prior 


2
Comment gérer la différence entre la distribution de l'ensemble de test et l'ensemble de formation?
Je pense qu'une hypothèse de base de l'apprentissage automatique ou de l'estimation des paramètres est que les données invisibles proviennent de la même distribution que l'ensemble d'apprentissage. Cependant, dans certains cas pratiques, la distribution de l'ensemble de test sera presque différente de l'ensemble de formation. Disons pour un problème de …


2
Nuage de points avec contour / superposition de chaleur
Verrouillé . Cette question et ses réponses sont verrouillées car la question est hors sujet mais a une signification historique. Il n'accepte pas actuellement de nouvelles réponses ou interactions. J'ai vu ce complot dans le supplément d'un article récent et j'aimerais pouvoir le reproduire en utilisant R. C'est un nuage …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.