Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

5
Comment les principaux composants principaux peuvent-ils conserver le pouvoir prédictif sur une variable dépendante (ou même conduire à de meilleures prédictions)?
Supposons que je courais une régression . Pourquoi en sélectionnant les premiers composants de , le modèle conserve-t-il son pouvoir prédictif sur ?k X YOui∼ XOui∼XY \sim XkkkXXXOuiOuiY Je comprends que du point de vue de la réduction de dimensionnalité / sélection des caractéristiques, si sont les vecteurs propres de …



4
Quand éviter la forêt aléatoire?
Les forêts aléatoires sont bien connues pour fonctionner assez bien sur une variété de tâches et ont été désignées comme l' homme du cuir des méthodes d'apprentissage . Y a-t-il des types de problèmes ou de conditions spécifiques dans lesquels il faut éviter d'utiliser une forêt aléatoire?


3
Interprétation de la régularisation des crêtes en régression
J'ai plusieurs questions concernant la pénalité de crête dans le contexte des moindres carrés: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) L'expression suggère que la matrice de covariance de X est rétrécie vers une matrice diagonale, ce qui signifie que (en supposant que les variables sont normalisées avant la procédure) …


2
Corrélation entre les estimateurs OLS pour l'interception et la pente
Dans un modèle de régression simple, y=β0+β1x+ε,y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, les estimateurs OLS et sont corrélés.ββ^OLS0β^0OLS\hat{\beta}_0^{OLS}β^OLS1β^1OLS\hat{\beta}_1^{OLS} La formule de la corrélation entre les deux estimateurs est (si je l'ai dérivée correctement): Corr(β^OLS0,β^OLS1)=−∑ni=1xin−−√∑ni=1x2i−−−−−−−√.Corr⁡(β^0OLS,β^1OLS)=−∑i=1nxin∑i=1nxi2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. Des questions: Quelle est l'explication intuitive de la …




2
Comment utiliser les résultats de R prcomp pour la prédiction?
J'ai un data.frame avec 800 obs. de 40 variables, et j'aimerais utiliser l'analyse des composants principaux pour améliorer les résultats de ma prédiction (qui fonctionne jusqu'à présent le mieux avec Support Vector Machine sur une quinzaine de variables sélectionnées à la main). Je comprends qu'un prcomp peut m'aider à améliorer …
25 r  pca 

5
Comment générer une grande matrice de corrélation aléatoire de rang complet avec de fortes corrélations présentes?
Je voudrais générer une matrice de corrélation aléatoire de telle sorte qu'il y ait des corrélations modérément fortes présentes: n × nCC\mathbf Cn×nn×nn \times n matrice symétrique réelle carrée de taille, avec par exemple ;n = 100n×nn×nn \times nn=100n=100n=100 positif-défini, c'est-à-dire avec toutes les valeurs propres réelles et positives; rang …

3
LSA contre PCA (regroupement de documents)
J'étudie différentes techniques utilisées dans le clustering de documents et je voudrais dissiper certains doutes concernant PCA (analyse en composantes principales) et LSA (analyse sémantique latente). Première chose - quelles sont les différences entre eux? Je sais qu'en PCA, la décomposition SVD est appliquée à la matrice terme-covariance, tandis qu'en …

1
«L'estimation de la densité du noyau» est une convolution de quoi?
J'essaie de mieux comprendre l'estimation de la densité du noyau. En utilisant la définition de Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition fh^(x)=1n∑ni=1Kh(x−xi)=1nh∑ni=1K(x−xih)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) Prenons pour être une fonction rectangulaire qui donne si est compris entre et et sinon, et (taille de fenêtre) pour …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.