Statistiques et Big Data

28

Donner un sens à l'analyse en composantes principales, aux vecteurs propres et aux valeurs propres

Dans la classe actuelle de reconnaissance des formes, mon professeur a parlé de PCA, de vecteurs propres et de valeurs propres. J'ai compris les mathématiques de celui-ci. Si on me demande de trouver des valeurs propres, etc., je le ferai correctement comme une machine. Mais je n'ai pas compris . …

976 pca intuition eigenvalues canonical-question

11

Comment choisir le nombre de couches et de nœuds cachés dans un réseau neuronal à anticipation?

Existe-t-il une méthode standard et acceptée pour sélectionner le nombre de couches et le nombre de nœuds dans chaque couche dans un réseau neuronal à rétroaction? Je suis intéressé par les moyens automatisés de construction de réseaux de neurones.

542 model-selection neural-networks

10

Quelle est la différence entre «vraisemblance» et «probabilité»?

La page wikipedia affirme que probabilité et probabilité sont des concepts distincts. Dans le langage non technique, le terme "probabilité" est généralement synonyme de "probabilité", mais dans l’utilisation statistique, il existe une distinction claire entre les perspectives: le nombre représentant la probabilité de certains résultats observés étant donné un ensemble …

474 probability likelihood

11

Quelle est l'intuition derrière la distribution bêta?

Déni de responsabilité: je ne suis pas un statisticien mais un ingénieur en logiciel. La plupart de mes connaissances en statistiques proviennent de mon auto-éducation, il me reste donc beaucoup de lacunes dans la compréhension de concepts qui peuvent sembler triviaux pour d'autres personnes ici. Je serais donc très reconnaissant …

438 distributions beta-distribution intuition beta-binomial

11

Quelle est la différence entre un ensemble de test et un ensemble de validation?

J'ai trouvé cela déroutant lorsque j'utilise la boîte à outils des réseaux de neurones dans Matlab. Il a divisé le jeu de données brutes en trois parties: set d'entraînement ensemble de validation ensemble d'essai Je remarque que dans de nombreux algorithmes d’entraînement ou d’apprentissage, les données sont souvent divisées en …

431 machine-learning validation

20

Les deux cultures: statistiques vs apprentissage automatique?

L'année dernière, j'ai lu un article de Brendan O'Connor sur le blog intitulé "Statistiques contre apprentissage automatique, combattez!" qui a discuté de certaines des différences entre les deux domaines. Andrew Gelman a répondu favorablement à ceci : Simon Blomberg: Du paquet de fortune de R: Pour paraphraser de manière provocante, …

420 machine-learning pac-learning

22

Pourquoi égaliser la différence au lieu de prendre la valeur absolue en écart type?

Dans la définition de l’écart-type, pourquoi devons-nous équilibrer la différence avec la moyenne pour obtenir la moyenne (E) et reprendre la racine carrée à la fin? Ne pouvons-nous pas simplement simplement prendre la valeur absolue de la différence et obtenir la valeur attendue (moyenne) de celles-ci, et cela ne montrerait-il …

408 standard-deviation definition

5

Comment comprendre les inconvénients de K-means

K-means est une méthode largement utilisée dans l'analyse par grappes. À mon sens, cette méthode ne nécessite AUCUNE hypothèse, c’est-à-dire qu’elle me donne un ensemble de données et un nombre de grappes prédéterminé, k, et que je m’applique simplement à cet algorithme qui minimise la somme des erreurs au carré …

365 machine-learning clustering data-mining k-means

25

Python en tant qu'atelier de statistiques

Beaucoup de gens utilisent un outil principal comme Excel ou une autre feuille de calcul, SPSS, Stata ou R pour leurs besoins en statistiques. Ils peuvent se tourner vers un logiciel spécifique pour des besoins très spécifiques, mais beaucoup de choses peuvent être réalisées avec un simple tableur, un logiciel …

355 r spss stata python

3

Relation entre SVD et PCA. Comment utiliser SVD pour effectuer une PCA?

L'analyse en composantes principales (ACP) est généralement expliquée via une décomposition propre de la matrice de covariance. Toutefois, cela peut également être effectué via une décomposition en valeurs singulières (SVD) de la matrice de donnéesXX\mathbf X . Comment ça marche? Quel est le lien entre ces deux approches? Quelle est …

352 pca dimensionality-reduction matrix svd

30

Quel est votre dessin préféré "d'analyse de données"?

C'est l'un de mes favoris: Une entrée par réponse. (Ceci est dans la veine de la question Stack Overflow. Quel est votre dessin préféré de «programmeur»?. ) Post-scriptum Ne pas hotlink le dessin animé sans la permission du site s'il vous plaît.

343 humor

15

Raisonnement bayésien et fréquentiste en anglais simplifié

Comment décririez-vous en anglais les caractéristiques qui distinguent le raisonnement bayésien du raisonnement Frequentist?

341 bayesian frequentist

11

Expliquer aux laïcs pourquoi l'amorçage fonctionne

J'ai récemment utilisé l'amorçage pour estimer les intervalles de confiance d'un projet. Quelqu'un qui ne connaît pas grand chose aux statistiques m'a récemment demandé d'expliquer pourquoi l' amorçage fonctionne, c.-à-d. Pourquoi le rééchantillonnage répétitif du même échantillon donne-t-il de bons résultats. J'ai réalisé que bien que j'avais passé beaucoup de …

326 bootstrap communication

18

Que se passe-t-il si les variables explicatives et de réponse sont triées indépendamment avant la régression?

Supposons que nous ayons un ensemble de données avec points. Nous voulons effectuer une régression linéaire, mais nous trions d’abord les valeurs et indépendamment les unes des autres, en formant un ensemble de données . Existe-t-il une interprétation significative de la régression sur le nouvel ensemble de données? Est-ce que …

302 regression correlation

10

Différence entre les modèles logit et probit

Quelle est la différence entre les modèles Logit et Probit ? Je suis plus intéressé par savoir quand utiliser la régression logistique et quand utiliser Probit. S'il existe une littérature qui le définit en utilisant R , cela serait également utile.

299 r generalized-linear-model logistic probit link-function