Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

1
Existe-t-il une analyse factorielle ou une ACP pour les données ordinales ou binaires?
J'ai terminé l'analyse en composantes principales (PCA), l'analyse factorielle exploratoire (EFA) et l'analyse factorielle confirmatoire (CFA), en traitant les données avec une échelle de likert (réponses à 5 niveaux: aucune, un peu, certaines, ..) en continu variable. Ensuite, en utilisant Lavaan, j'ai répété le CFA définissant les variables comme catégoriques. …

3
Casse-tête: Quelle est la longueur attendue d'une séquence iid qui augmente de façon monotone lorsqu'elle est tirée d'une distribution uniforme [0,1]?
Il s'agit d'une question d'entrevue pour un poste d'analyste quantitatif, rapportée ici . Supposons que nous dessinons à partir d'une distribution uniforme et que les tirages soient iid, quelle est la longueur attendue d'une distribution augmentant de façon monotone? C'est-à-dire que nous arrêtons de dessiner si le tirage actuel est …

3
Pourquoi un mélange de deux variables normalement distribuées n'est-il bimodal que si leurs moyennes diffèrent d'au moins deux fois l'écart type commun?
Sous mélange de deux distributions normales: https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions "Un mélange de deux distributions normales a cinq paramètres à estimer: les deux moyennes, les deux variances et le paramètre de mélange. Un mélange de deux distributions normales avec des écarts-types égaux n'est bimodal que si leurs moyennes diffèrent d'au moins deux fois …
28 bimodal 

1
Dans quelle mesure un modèle de régression est-il incorrect lorsque les hypothèses ne sont pas remplies?
Lors de l'ajustement d'un modèle de régression, que se passe-t-il si les hypothèses des résultats ne sont pas remplies, en particulier: Que se passe-t-il si les résidus ne sont pas homoscédastiques? Si les résidus montrent une tendance à la hausse ou à la baisse dans les résidus par rapport au …




2
Bruit blanc dans les statistiques
Je vois souvent le terme bruit blanc apparaître lors de la lecture de différents modèles statistiques. Je dois cependant admettre que je ne suis pas tout à fait sûr de ce que cela signifie. Il est généralement abrégé en WN( 0 , σ2)WN(0,σ2)WN(0,σ^2) . Cela signifie-t-il qu'il est normalement distribué …

1
Approximation de la fonction de perte XGBoost avec expansion de Taylor
À titre d'exemple, prendre la fonction objective du modèle XGBoost sur le « e itération:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) où est la fonction de perte, est le ième sortie arbre et est la régularisation. L'une des (nombreuses) étapes clés pour un calcul rapide est l'approximation:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), où et sont les première et …


2
Pourquoi les valeurs de p sont-elles trompeuses après avoir effectué une sélection pas à pas?
Prenons par exemple un modèle de régression linéaire. J'ai entendu dire que, dans l'exploration de données, après avoir effectué une sélection par étapes basée sur le critère AIC, il est trompeur de regarder les valeurs de p pour tester l'hypothèse nulle selon laquelle chaque véritable coefficient de régression est nul. …



7
Concept statistique pour expliquer pourquoi vous êtes moins susceptible de retourner le même nombre de têtes que de queues, à mesure que le nombre de retournements augmente?
Je travaille sur l'apprentissage des probabilités et des statistiques en lisant quelques livres et en écrivant du code, et en simulant des lancers de pièces, j'ai remarqué quelque chose qui m'a semblé légèrement contraire à l'intuition naïve. Si vous lancez une pièce juste fois, le rapport des têtes aux queues …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.