Statistiques et Big Data

3

Validation croisée imbriquée pour la sélection du modèle

Comment utiliser la validation croisée imbriquée pour la sélection du modèle ? D'après ce que j'ai lu en ligne, les CV imbriqués fonctionnent comme suit: Il y a la boucle CV interne, où nous pouvons effectuer une recherche sur la grille (par exemple, exécuter un pli en K pour chaque …

92 cross-validation model-selection

11

Estimation du maximum de vraisemblance (MLE) en termes simples

Quelqu'un pourrait-il m'expliquer de manière détaillée sur l'estimation du maximum de vraisemblance (MLE) en termes simples? J'aimerais connaître le concept sous-jacent avant de passer à la dérivation ou à l'équation mathématique.

92 mathematical-statistics maximum-likelihood intuition definition philosophical

2

Qu'est-ce qu'une couche d'intégration dans un réseau de neurones?

Dans de nombreuses bibliothèques de réseaux neuronaux, il existe des «couches d'intégration», comme dans Keras ou Lasagne . Je ne suis pas sûr de comprendre son fonctionnement, malgré la lecture de la documentation. Par exemple, dans la documentation de Keras, il est écrit: Transformez les entiers positifs (index) en vecteurs …

92 machine-learning neural-networks python word-embeddings

5

Pourquoi l'ANOVA est-elle enseignée / utilisée comme s'il s'agissait d'une méthodologie de recherche différente de la régression linéaire?

L’ANOVA équivaut à une régression linéaire avec l’utilisation de variables nominales appropriées. Les conclusions restent les mêmes, que vous utilisiez une ANOVA ou une régression linéaire. Compte tenu de leur équivalence, y a-t-il une raison pour laquelle l'ANOVA est utilisée au lieu de la régression linéaire? Remarque: je suis particulièrement …

91 regression anova

3

Est-il possible d'avoir une paire de variables aléatoires gaussiennes pour lesquelles la distribution conjointe n'est pas gaussienne?

Quelqu'un m'a posé cette question lors d'un entretien d'embauche et j'ai répondu que leur distribution commune est toujours gaussienne. Je pensais que je pouvais toujours écrire une gaussienne à deux variables avec leurs moyennes, leur variance et leurs covariances. Je me demande s’il peut exister un cas pour lequel la …

91 normal-distribution multivariate-analysis copula bivariate

4

PCA et proportion de variance expliquée

En général, que veut dire que la fraction de la variance dans une analyse comme ACP est expliquée par la première composante principale? Est-ce que quelqu'un peut expliquer cela intuitivement, mais aussi donner une définition mathématique précise de ce que "variance expliquée" signifie en termes d'analyse en composantes principales (ACP)?Xxx …

91 regression pca linear-model dimensionality-reduction

11

Quand faut-il appeler la «régression linéaire» «apprentissage par la machine»?

Lors d'un récent colloque, le résumé du locuteur a affirmé qu'ils utilisaient l'apprentissage automatique. Au cours de l'entretien, la seule chose liée à l'apprentissage automatique était qu'ils effectuaient une régression linéaire sur leurs données. Après avoir calculé les coefficients d'ajustement optimal dans l'espace des paramètres 5D, ils ont comparé ces …

90 regression machine-learning multiple-regression terminology definition

6

Si j'ai 58% de chances de gagner un point, quelle est ma chance de gagner une partie de ping-pong à 21, gagner par 2?

Je parie avec un collègue que sur 50 parties de ping-pong (le premier à avoir gagné 21 points, une victoire par 2), je gagnerai les 50. Jusqu'à présent, nous avons disputé 15 parties et en moyenne je gagne 58% des les points, plus j'ai gagné tous les jeux jusqu'à présent. …

90 probability games

11

«Meilleure» série de couleurs à utiliser pour différencier les séries dans des tracés de qualité édition

Est-ce qu'une étude a été faite sur les meilleurs jeux de couleurs à utiliser pour montrer plusieurs séries sur la même parcelle? Je viens d'utiliser les valeurs par défaut matplotlib, et elles ont l'air un peu enfantines puisqu'elles sont toutes lumineuses, couleurs primaires.

89 data-visualization

7

Comment gérer efficacement un projet d'analyse statistique?

Nous entendons souvent parler de gestion de projet et de modèles de conception en informatique, mais moins fréquemment en analyse statistique. Cependant, il semble qu'une étape décisive dans la conception d'un projet statistique efficace et durable consiste à garder les choses organisées. Je préconise souvent l'utilisation de R et une …

89 project-management

1

Interprétation de plot.lm ()

J'avais une question sur l'interprétation des graphiques générés par plot (lm) dans R. Je me demandais si vous pouviez me dire comment interpréter les tracés de localisation d'échelle et d'effet résiduel? Tous les commentaires seraient appréciés. Assumer des connaissances de base en statistique, régression et économétrie.

89 r regression data-visualization residuals outliers

4

Pourquoi normaliser les images en soustrayant la moyenne image du jeu de données, au lieu de la moyenne actuelle de l’apprentissage en profondeur?

Il existe quelques variantes sur la façon de normaliser les images, mais la plupart semblent utiliser ces deux méthodes: Soustrayez la moyenne par canal calculée pour toutes les images (par exemple, VGG_ILSVRC_16_layers ) Soustrayez par pixel / canal calculé sur toutes les images (par exemple, CNN_S , voir aussi le …

88 deep-learning image-processing

1

Effets aléatoires croisés et imbriqués: en quoi diffèrent-ils et comment sont-ils spécifiés correctement dans lme4?

Voici comment j'ai compris les effets aléatoires imbriqués et croisés: Les effets aléatoires imbriqués se produisent lorsqu'un facteur de niveau inférieur apparaît uniquement dans un niveau particulier d'un facteur de niveau supérieur. Par exemple, les élèves dans les classes à un moment donné. En lme4pensant que nous représentons les effets …

88 r mixed-model multilevel-analysis lme4-nlme

4

Tracés de diagnostic pour la régression du nombre

Quelles parcelles de diagnostic (et peut-être des tests formels) trouvez-vous le plus informatif pour les régressions où le résultat est une variable de comptage? Je suis particulièrement intéressé par les modèles de Poisson et binomiaux négatifs, ainsi que par leurs homologues à gonflement nul et à obstacle. La plupart des …

88 generalized-linear-model residuals negative-binomial zero-inflation poisson-regression

4

Quand utiliser des GLM gamma?

La distribution gamma peut prendre une assez grande variété de formes et, étant donné le lien entre la moyenne et la variance à travers ses deux paramètres, elle semble appropriée pour traiter l'hétéroscédasticité dans des données non négatives, de manière à ce que les log ne vous faites pas sans …

88 generalized-linear-model gamma-distribution