Statistiques et Big Data

9

Exagérons-nous l’importance des hypothèses et de l’évaluation des modèles à une époque où les analyses sont souvent effectuées par des non-spécialistes?

En bout de ligne , plus j'en apprends sur les statistiques, moins je me fie aux articles publiés dans mon domaine; Je crois simplement que les chercheurs ne font pas assez bien leurs statistiques. Je suis un profane, pour ainsi dire. J'ai une formation en biologie mais je n'ai aucune …

54 mathematical-statistics multiple-regression modeling

3

Utilisation de l’analyse en composantes principales (PCA) pour la sélection des fonctionnalités

Je suis nouveau dans la sélection de fonctionnalités et je me demandais comment vous utiliseriez PCA pour sélectionner des fonctionnalités. La PCA calcule-t-elle un score relatif pour chaque variable d'entrée que vous pouvez utiliser pour filtrer les variables d'entrée non informatives? En gros, je veux pouvoir classer les caractéristiques d'origine …

54 r pca feature-selection

8

L'échantillonnage est-il pertinent à l'époque des «données volumineuses»?

Ou plus encore "ça va être"? Le Big Data rend les statistiques et les connaissances pertinentes d'autant plus importantes mais semble sous-estimer la théorie de l'échantillonnage. J'ai déjà vu ce battage publicitaire autour du «Big Data» et je ne peux m'empêcher de me demander «pourquoi» voudrais-je tout analyser ? N'y …

54 sampling data-mining large-data

9

Ouvrage de référence pour l'algèbre linéaire appliqué à la statistique?

Je travaille depuis un moment dans R et je suis confronté à des problèmes tels que PCA, SVD, décompositions QR et de nombreux autres résultats d'algèbre linéaire (lors de l'inspection d'estimations de régressions pondérées, etc.). Je voulais donc savoir si quelqu'un a une recommandation livre complet d'algèbre linéaire qui n'est …

54 references matrix linear-algebra weighted-regression

10

Comment décider du nombre correct de clusters?

Nous trouvons les centres de cluster et attribuons des points à k différents groupes de cluster dans le clustering k-means, qui est un algorithme très bien connu et qui se retrouve presque dans tous les packages d'apprentissage automatique du réseau. Mais la partie manquante et la plus importante à mon …

54 clustering k-means

2

Avons-nous besoin d'un test global avant les tests post hoc?

J'entends souvent dire que les tests post-hoc après une ANOVA ne peuvent être utilisés que si celle-ci était significative. Cependant, les tests post-hoc ajustent les valeurs pour maintenir le taux d'erreur global de type I à 5%, n'est-ce pas?ppp Alors pourquoi avons-nous besoin du test global en premier? Si nous …

54 anova statistical-significance post-hoc

3

Écart type de l'écart type

Qu'est-ce qu'un estimateur de l'écart type de l'écart type si la normalité des données peut être supposée?

54 estimation standard-deviation normality-assumption

6

Introduction à la statistique pour mathématiciens

Qu'est-ce qu'une bonne introduction aux statistiques pour un mathématicien qui connaît déjà bien les probabilités? J'ai deux motivations distinctes à poser, ce qui peut conduire à différentes suggestions: J'aimerais mieux comprendre la motivation statistique derrière de nombreux problèmes considérés par les probabilistes. J'aimerais savoir comment mieux interpréter les résultats des …

54 references

5

Est-ce une bonne idée d’ajuster les valeurs p dans une régression multiple pour des comparaisons multiples?

Supposons que vous êtes un chercheur en sciences sociales / économétrique qui essaie de trouver des prédicteurs pertinents de la demande d'un service. Vous avez 2 variables de résultat / variables dépendantes décrivant la demande (en utilisant le service oui / non et le nombre d'occasions). Vous avez 10 variables …

54 regression multivariate-analysis predictive-models multiple-regression multiple-comparisons

7

Meilleur algorithme PCA pour un grand nombre de fonctionnalités (> 10K)?

J'ai déjà posé cette question à StackOverflow, mais il semble que cela conviendrait mieux ici, étant donné que cela n'a pas donné de réponse à SO. C'est un peu à la croisée des statistiques et de la programmation. J'ai besoin d'écrire du code pour faire PCA (analyse en composantes principales). …

54 pca algorithms model-evaluation high-dimensional

19

Vidéos statistiques mathématiques

Une question a précédemment demandé des recommandations pour les manuels de statistiques mathématiques Est-ce que quelqu'un connaît de bonnes conférences vidéo en ligne sur les statistiques mathématiques ? Les plus proches que j'ai trouvés sont: Apprentissage machine Économétrie MISE À JOUR: Un certain nombre des suggestions mentionnées ci-dessous sont de …

54 mathematical-statistics references

3

Régression linéaire multivariée vs réseau de neurones?

Il semble qu'il soit possible d'obtenir des résultats similaires à ceux d'un réseau de neurones avec une régression linéaire multivariée dans certains cas, et la régression linéaire multivariée est extrêmement rapide et facile. Dans quelles circonstances les réseaux de neurones peuvent-ils donner de meilleurs résultats que la régression linéaire multivariée?

54 regression multiple-regression neural-networks

5

Quelle est l'explication intuitive de la façon dont l'ACP passe d'un problème géométrique (avec des distances) à un problème d'algèbre linéaire (avec des vecteurs propres)?

J'ai beaucoup lu sur la PCA, y compris divers tutoriels et questions (comme celle-ci , celle-ci , celle-ci et celle-ci ). Le problème géométrique que PCA essaie d’optimiser m’est clair: PCA essaie de trouver le premier composant principal en minimisant l’erreur de reconstruction (projection), ce qui maximise simultanément la variance …

54 pca optimization linear-algebra intuition

10

Validation en attente et validation croisée

À mes yeux, il semble que la validation en attente est inutile. En d’autres termes, scinder le jeu de données original en deux parties (formation et test) et utiliser le score de test comme mesure de généralisation est quelque peu inutile. La validation croisée des plis en K semble donner …

54 machine-learning cross-validation validation

4

Covariance et indépendance?

J'ai lu dans mon manuel que ne garantit pas que X et Y sont indépendants. Mais si elles sont indépendantes, leur covariance doit être égale à 0. Je ne peux encore penser à aucun exemple approprié; quelqu'un pourrait-il en fournir un?cov(X,Y)=0cov(X,Y)=0\text{cov}(X,Y)=0

54 independence covariance