Statistiques et Big Data

4

Pourquoi tanh est-il presque toujours meilleur que sigmoïde comme fonction d'activation?

Dans le cours sur les réseaux neuronaux et l'apprentissage profond d' Andrew Ng sur Coursera, il dit que l'utilisation de tanhtanhtanh est presque toujours préférable à l'utilisation de sigmoidsigmoidsigmoid . La raison qu'il donne est que les sorties utilisant tanhtanhtanh centrées autour de 0 plutôt que de 0,5, ce qui …

33 machine-learning neural-networks backpropagation sigmoid-curve

1

Quelle est la différence entre «coefficient de détermination» et «erreur quadratique moyenne»?

Pour le problème de régression, j'ai vu des gens utiliser le «coefficient de détermination» (alias R au carré) pour effectuer la sélection du modèle, par exemple pour trouver le coefficient de pénalité approprié pour la régularisation. Cependant, il est également courant d'utiliser "l'erreur quadratique moyenne" ou "l'erreur quadratique moyenne" comme …

33 regression r-squared

2

Comment démarrez-vous avec des données de séries chronologiques?

J'ai récemment appris à utiliser des techniques d'amorçage pour calculer les erreurs standard et les intervalles de confiance pour les estimateurs. Ce que j'ai appris, c'est que si les données sont des IID, vous pouvez traiter les données de l'échantillon comme la population et faire un échantillonnage avec remplacement, ce …

33 time-series bootstrap

7

Qu'est-ce que la normalité?

Dans de nombreuses méthodes statistiques différentes, il existe une "hypothèse de normalité". Qu'est-ce que la «normalité» et comment savoir s'il existe une normalité?

33 distributions normality-assumption

10

Pourquoi la somme de deux variables aléatoires est-elle une convolution?

Pendant longtemps, je n'ai pas compris pourquoi la "somme" de deux variables aléatoires est leur convolution , alors qu'une fonction de densité de mélange somme de et estf(x)f(x)f(x)g(x)g(x)g(x)pf(x)+(1−p)g(x)pf(x)+(1−p)g(x)p\,f(x)+(1-p)g(x)n; la somme arithmétique et non leur convolution. L'expression exacte "la somme de deux variables aléatoires" apparaît dans google 146 000 fois et …

33 pdf terminology cdf mixture convolution

2

Quelle est la définition d'une «carte de caractéristiques» (ou «carte d'activation») dans un réseau de neurones convolutionnels?

Contexte d'introduction Au sein d'un réseau neuronal convolutionnel, nous avons généralement une structure / un flux général qui ressemble à ceci: image d'entrée (c'est-à-dire un vecteur 2D x) (La 1ère couche convolutionnelle (Conv1) commence ici ...) convoluez un ensemble de filtres ( w1) le long de l'image 2D (c.-à-d. faites …

33 neural-networks deep-learning conv-neural-network

7

Comment interpréter le coefficient de variation?

J'essaie de comprendre le coefficient de variation . Lorsque j'essaie de l'appliquer aux deux échantillons de données suivants, je n'arrive pas à comprendre comment interpréter les résultats. Disons que l'échantillon 1 est et l'échantillon 2 est . Ici échantillon 2 échantillon 1 comme vous pouvez le voir.10 , 15 , …

33 descriptive-statistics coefficient-of-variation

1

Si je génère une matrice symétrique aléatoire, quelle est la chance qu'elle soit positive définie?

J'ai eu une question étrange lorsque je testais des optimisations convexes. La question est: Supposons que je génère aléatoirement (par exemple, une distribution normale standard) une matrice symétrique ((par exemple, je génère une matrice triangulaire supérieure et je remplis la moitié inférieure pour s'assurer qu'elle est symétrique), quelle est la …

32 probability matrix random-generation eigenvalues random-matrix

6

Existe-t-il des exemples où le théorème de la limite centrale ne tient pas?

Wikipedia dit - Dans la théorie des probabilités, le théorème central limite (CLT) établit que, dans la plupart des situations , lorsque des variables aléatoires indépendantes sont ajoutées, leur somme correctement normalisée tend vers une distribution normale (de manière informelle une "courbe en cloche"), même si les variables d'origine ne …

32 probability mathematical-statistics normal-distribution central-limit-theorem

3

Pourquoi la recherche de petits effets dans les grandes études indique-t-elle un biais de publication?

Plusieurs documents méthodologiques (par exemple Egger et al 1997a, 1997b) traitent du biais de publication révélé par les méta-analyses, en utilisant des graphiques en entonnoir tels que celui ci-dessous. Le document de 1997b poursuit en indiquant que "si un biais de publication est présent, il est prévu que, parmi les …

32 meta-analysis publication-bias

3

Pourquoi les tests d'hypothèses de base portent-ils sur la moyenne et non sur la médiane?

Dans les cours de statistiques de base pour les étudiants du premier cycle, on apprend (généralement?) À tester des hypothèses pour la moyenne d'une population. Pourquoi se concentre-t-il sur la moyenne et non sur la médiane? Mon hypothèse est qu'il est plus facile de tester la moyenne en raison du …

32 hypothesis-testing mean inference median

5

Pourquoi certaines personnes utilisent -999 ou -9999 pour remplacer les valeurs manquantes?

J'ai un jeu de données. Il y a beaucoup de valeurs manquantes. Pour certaines colonnes, la valeur manquante a été remplacée par -999, mais pour d'autres colonnes, la valeur manquante a été marquée comme "NA". Pourquoi utiliserions -999 pour remplacer la valeur manquante?

32 missing-data

2

Qu'est-ce que l'entropie nous dit?

Je lis sur l' entropie et j'ai du mal à conceptualiser ce que cela signifie dans le cas présent. La page wiki indique ce qui suit: La distribution de probabilité des événements, couplée à la quantité d'informations de chaque événement, forme une variable aléatoire dont la valeur attendue est la …

32 entropy

3

La valeur p est-elle une estimation ponctuelle?

Puisqu'on peut calculer des intervalles de confiance pour les valeurs p et que l'opposé de l'estimation d'intervalle est l'estimation ponctuelle: la valeur p est-elle une estimation ponctuelle?

32 confidence-interval estimation p-value estimators point-estimation

8

Devrais-je d'abord enseigner les statistiques bayésiennes ou fréquentistes?

J'aide mes garçons, actuellement au lycée, à comprendre les statistiques et je songe à commencer par quelques exemples simples, sans pour autant négliger quelques aperçus de la théorie. Mon objectif serait de leur donner l’approche la plus intuitive et pourtant la plus instrumentale pour apprendre les statistiques à partir de …

32 probability hypothesis-testing bayesian frequentist teaching