Statistiques et Big Data

4

Évaluation de la distribution approximative des données basée sur un histogramme

Supposons que je veuille voir si mes données sont exponentielles en fonction d'un histogramme (c'est-à-dire asymétriques à droite). Selon la façon dont je regroupe ou classe les données, je peux obtenir des histogrammes très différents. Un ensemble d'histogrammes semblera indiquer que les données sont exponentielles. Un autre ensemble fera croire …

111 distributions data-visualization histogram binning

6

Doit-on enlever les variables fortement corrélées avant de faire la PCA?

Je lis un article dans lequel l'auteur élimine plusieurs variables en raison d'une corrélation élevée avec d'autres variables avant de procéder à la PCA. Le nombre total de variables est d'environ 20. Est-ce que cela donne des avantages? Cela me semble être une surcharge, car la PCA devrait gérer cela …

111 correlation pca

2

Arbre de renforcement dégradé vs forêt aléatoire

Comme l’a proposé Friedman, l’amélioration des arbres en dégradé utilise des arbres de décision comme apprenants de base. Je me demande si nous devrions rendre l'arbre de décision de base aussi complexe que possible (complètement développé) ou plus simple? Y a-t-il une explication au choix? Random Forest est une autre …

110 machine-learning random-forest cart boosting ensemble

8

Détecter un visage donné dans une base de données d'images faciales

Je travaille sur un petit projet impliquant les visages des utilisateurs de Twitter via leurs photos de profil. Un problème que j'ai rencontré est qu'après avoir filtré toutes les images sauf les images qui sont claires, un pourcentage faible mais significatif d'utilisateurs de Twitter utilise une photo de Justin Bieber …

110 machine-learning clustering image-processing

3

Que se passe-t-il si les résidus sont normalement distribués, mais que y ne le soit pas?

J'ai une question étrange. Supposons que vous avez un petit échantillon dans lequel la variable dépendante que vous allez analyser avec un modèle linéaire simple est fortement asymétrique. Ainsi , on suppose que est normalement distribué, car cela entraînerait une distribution normale y . Mais lorsque vous calculez le graphe …

110 regression residuals error normality-assumption

6

Comment expliqueriez-vous la différence entre corrélation et covariance?

Pour poursuivre sur cette question, comment expliqueriez-vous la covariance à quelqu'un qui ne comprend que la moyenne? , qui aborde la question de l’explication de la covariance à un laïc, a soulevé une question similaire dans mon esprit. Comment expliquer à un néophyte de statistiques la différence entre covariance et …

110 correlation covariance

10

Pourquoi la distribution de Cauchy n'a pas de moyen?

À partir de la fonction de densité de distribution, nous pourrions identifier une moyenne (= 0) pour la distribution de Cauchy, comme le montre le graphique ci-dessous. Mais pourquoi dit-on que la distribution de Cauchy n'a pas de moyen?

109 distributions mathematical-statistics mean pdf cauchy

5

Comment fonctionne une machine à vecteurs de support (SVM)?

Comment une machine à vecteurs de support (SVM) travail, et ce qui le différencie des autres classificateurs linéaires, tels que le linéaire Perceptron , analyse discriminante linéaire ou régression logistique ? * (* Je pense en termes de motivations sous-jacentes à l'algorithme, de stratégies d'optimisation, de capacités de généralisation et …

109 machine-learning classification svm statistical-learning

15

Résultats des élections américaines 2016: qu'est-ce qui n'allait pas avec les modèles de prédiction?

D'abord c'était le Brexit , maintenant les élections américaines. De nombreuses prédictions de modèles ont été largement décalées et reste-t-il des leçons à tirer ici? Pas plus tard qu'hier, à 16 heures, heure de Paris, les marchés des paris étaient toujours favorables à Hillary 4 à 1. Je suppose que …

108 predictive-models ensemble confounding

4

Quelle est la règle .632+ en amorçage?

Ici @gung fait référence à la règle .632+. Une recherche rapide dans Google ne permet pas de comprendre aisément ce que cette règle signifie et dans quel but elle est utilisée. Quelqu'un voudrait-il élucider la règle .632+?

107 bootstrap

6

Existe-t-il une interprétation intuitive de pour une matrice de données ?

Pour une matrice de données donnée (avec des variables dans des colonnes et des points de données dans des lignes), il semble que joue un rôle important dans les statistiques. Par exemple, il s’agit d’une partie importante de la solution analytique des moindres carrés ordinaires. Ou, pour la PCA, ses …

107 matrix covariance-matrix correlation-matrix

5

Quelles sont les compétences requises pour effectuer des analyses statistiques à grande échelle?

De nombreux emplois statistiques demandent une expérience avec des données à grande échelle. Quelles sont les compétences statistiques et informatiques nécessaires pour travailler avec de grands ensembles de données? Par exemple, qu’en est-il de la construction de modèles de régression à partir d’un ensemble de données contenant 10 millions d’échantillons?

107 regression machine-learning multivariate-analysis large-data

21

Qu'est-ce qu'un exemple concret de «surapprentissage»?

Je comprends un peu ce que signifie "surapprentissage", mais j’ai besoin d’aide pour trouver un exemple concret qui s’applique à la suralimentation.

107 overfitting

7

Pourquoi la précision n'est-elle pas la meilleure mesure pour évaluer les modèles de classification?

C'est une question générale qui a été posée indirectement à plusieurs reprises ici, mais il manque une seule réponse faisant autorité. Il serait bon d'avoir une réponse détaillée à cette question pour la référence. L’exactitude , la proportion de classifications correctes parmi toutes les classifications, est une mesure très simple …

107 machine-learning classification accuracy model-evaluation scoring-rules

6

Que signifie 1x1 convolution dans un réseau de neurones?

Je suis en train de faire le tutoriel Udacity Deep Learning. Dans la leçon 3, ils parlent d'une convolution 1x1. Cette convolution 1x1 est utilisée dans Google Inception Module. J'ai du mal à comprendre ce qu'est une convolution 1x1. J'ai aussi vu ce post de Yann Lecun. Quelqu'un pourrait-il bien …

106 neural-networks deep-learning convolution conv-neural-network