Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données


5
Exemples d'ACP où les PC à faible variance sont «utiles»
Normalement, dans l'analyse en composantes principales (ACP), les premiers PC sont utilisés et les PC à faible variance sont abandonnés, car ils n'expliquent pas beaucoup la variation des données. Cependant, existe-t-il des exemples où les PC à faible variation sont utiles (c'est-à-dire qu'ils ont une utilisation dans le contexte des …
24 pca 


5
Quel est l'avantage de traiter un facteur comme aléatoire dans un modèle mixte?
J'ai un problème à accepter les avantages d'étiqueter un facteur de modèle comme aléatoire pour plusieurs raisons. Il me semble que dans presque tous les cas, la solution optimale consiste à traiter tous les facteurs comme fixes. Premièrement, la distinction entre fixe et aléatoire est assez arbitraire. L'explication standard est …

4
Shapiro – Wilk est-il le meilleur test de normalité? Pourquoi pourrait-il être meilleur que d'autres tests comme Anderson-Darling?
J'ai lu quelque part dans la littérature que le test de Shapiro-Wilk est considéré comme le meilleur test de normalité car pour un niveau de signification donné, , la probabilité de rejeter l'hypothèse nulle si elle est fausse est plus élevée que dans le cas de l'autre tests de normalité.αα\alpha …

2
Pourquoi l'algorithme de maximisation des attentes est-il garanti de converger vers un optimum local?
J'ai lu quelques explications sur l'algorithme EM (par exemple de Bishop's Pattern Recognition and Machine Learning et de Roger and Gerolami First Course on Machine Learning). La dérivation de EM est ok, je le comprends. Je comprends également pourquoi l'algorithme couvre quelque chose: à chaque étape, nous améliorons le résultat …


3
Validation croisée ou amorçage pour évaluer les performances de classification?
Quelle est la méthode d'échantillonnage la plus appropriée pour évaluer la performance d'un classificateur sur un ensemble de données particulier et la comparer avec d'autres classificateurs? La validation croisée semble être une pratique standard, mais j'ai lu que des méthodes telles que le bootstrap .632 sont un meilleur choix. À …


2
De quelle taille un ensemble d'entraînement est-il nécessaire?
Existe-t-il une méthode courante pour déterminer le nombre d'échantillons d'apprentissage nécessaires pour former un classificateur (un LDA dans ce cas) afin d'obtenir une précision de généralisation de seuil minimum? Je pose la question parce que je voudrais minimiser le temps d'étalonnage habituellement requis dans une interface cerveau-ordinateur.

2
Comment concevoir et mettre en œuvre une fonction de perte asymétrique pour la régression?
Problème En régression, on calcule généralement l' erreur quadratique moyenne (MSE) pour un échantillon: pour mesurer la qualité d'un prédicteur.MSE=1n∑i=1n(g(xi)−gˆ(xi))2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 En ce moment, je travaille sur un problème de régression où l'objectif est de prédire le prix que les clients sont prêts à payer …



5
Quelle est la robustesse du test t d'échantillons indépendants lorsque les distributions des échantillons ne sont pas normales?
J'ai lu que le test t est "raisonnablement robuste" lorsque les distributions des échantillons s'écartent de la normalité. Bien sûr, c'est la distribution d'échantillonnage des différences qui est importante. J'ai des données pour deux groupes. L'un des groupes est fortement asymétrique sur la variable dépendante. La taille de l'échantillon est …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.