Statistiques et Big Data

2

Qui a d'abord utilisé / inventé les valeurs p?

J'essaie d'écrire une série de billets de blog sur les valeurs p et j'ai pensé qu'il serait intéressant de revenir là où tout a commencé - qui semble être le document de Pearson de 1900. Si vous êtes familier avec ce papier, vous vous souviendrez qu'il couvre les tests d'adéquation. …

30 p-value history ronald-fisher

4

La somme de deux processus de bruit blanc est-elle nécessairement un bruit blanc?

Soit atata_t et btbtb_t des processus de bruit blanc. Peut-on dire que ct=at+btct=at+btc_t=a_t+b_t est nécessairement un processus de bruit blanc?

30 time-series econometrics white-noise

2

Existe-t-il un intervalle de confiance non paramétrique fiable pour la moyenne d'une distribution asymétrique?

Des distributions très asymétriques telles que le log-normal n'entraînent pas des intervalles de confiance bootstrap précis. Voici un exemple montrant que les zones arrière gauche et droite sont loin de la valeur idéale de 0,025, quelle que soit la méthode d'amorçage que vous essayez dans R: require(boot) n <- 25 …

30 confidence-interval nonparametric mean bootstrap median

3

Quelle est la cause profonde du problème de déséquilibre de classe?

J'ai beaucoup réfléchi au «problème de déséquilibre de classe» dans l'apprentissage machine / statistique ces derniers temps, et j'approfondis de plus en plus le sentiment que je ne comprends tout simplement pas ce qui se passe. Permettez-moi d'abord de définir (ou d'essayer de) définir mes termes: Le problème de déséquilibre …

30 classification predictive-models unbalanced-classes scoring-rules

2

Quand la régularisation L1 fonctionnera-t-elle mieux que L2 et vice versa?

Remarque: Je sais que L1 a une propriété de sélection de fonction. J'essaie de comprendre lequel choisir lorsque la sélection des fonctionnalités est complètement hors de propos. Comment décider quelle régularisation (L1 ou L2) utiliser? Quels sont les avantages et les inconvénients de chacune des régularisations L1 / L2? Est-il …

30 regression lasso regularization ridge-regression

2

Apprentissage supervisé, apprentissage non supervisé et apprentissage par renforcement: principes de base du flux de travail

Enseignement supervisé 1) Un humain construit un classificateur basé sur des données d' entrée et de sortie 2) Ce classificateur est formé avec un ensemble de données de formation 3) Ce classificateur est testé avec un ensemble de données de test 4) Déploiement si le résultat est satisfaisant A utiliser …

30 machine-learning unsupervised-learning supervised-learning reinforcement-learning

2

Quelle est la différence entre la censure et la troncature?

Dans le livre Modèles et méthodes statistiques pour les données à vie , il est écrit: Censure: lorsqu'une observation est incomplète en raison d'une cause aléatoire. Troncature: lorsque la nature incomplète de l'observation est due à un processus de sélection systématique inhérent au plan d'étude. Qu'entend-on par «processus de sélection …

30 self-study censoring truncation

3

Analyse de classe latente vs analyse de cluster - différences dans les inférences?

Quelles sont les différences dans les inférences qui peuvent être faites à partir d'une analyse de classe latente (ACV) par rapport à une analyse en grappes? Est-il exact qu'une ACV suppose une variable latente sous-jacente qui donne naissance aux classes, alors que l'analyse de cluster est une description empirique des …

30 clustering latent-variable latent-class

13

Quelle est l'intuition derrière la formule de probabilité conditionnelle?

La formule de la probabilité conditionnelle d' AA\text{A} happening étant donné que BB\text{B} est arrivé est la suivante : P(A | B)=P(A∩B)P(B).P(A | B)=P(A∩B)P(B). P\left(\text{A}~\middle|~\text{B}\right)=\frac{P\left(\text{A} \cap \text{B}\right)}{P\left(\text{B}\right)}. Mon manuel explique l'intuition derrière cela en termes de diagramme de Venn. Étant donné que BB\text{B} s'est produit, la seule façon pour AA\text{A} …

30 probability conditional-probability intuition

2

Réseaux de neurones convolutifs: les neurones centraux ne sont-ils pas surreprésentés en sortie?

[Cette question a également été posée au débordement de la pile] La question en bref J'étudie les réseaux de neurones convolutifs, et je crois que ces réseaux ne traitent pas chaque neurone d'entrée (pixel / paramètre) de manière équivalente. Imaginez que nous ayons un réseau profond (plusieurs couches) qui applique …

30 machine-learning neural-networks convolution

8

Y a-t-il une distribution en forme de plateau?

Je recherche une distribution où la densité de probabilité diminue rapidement après un certain point loin de la moyenne, ou selon mes propres mots une "distribution en forme de plateau". Quelque chose entre le gaussien et l'uniforme.

30 distributions normal-distribution uniform

2

De combien d'autocollants ai-je besoin pour terminer mon album FIFA Panini?

Je joue à l' Album d'autocollants en ligne FIFA Panini , qui est une adaptation Internet des albums Panini classiques qui sont généralement publiés pour la coupe du monde de football, le championnat d'Europe et peut-être d'autres tournois. L'album contient des espaces réservés pour 424 autocollants différents. Le but du …

30 probability coupon-collector-problem

2

Pourquoi devrions-nous utiliser des erreurs t au lieu d'erreurs normales?

Dans ce billet de blog d'Andrew Gelman, il y a le passage suivant: Les modèles bayésiens d'il y a 50 ans semblent désespérément simples (sauf, bien sûr, pour des problèmes simples), et je m'attends à ce que les modèles bayésiens d'aujourd'hui semblent désespérément simples, dans 50 ans. (Juste pour un …

30 distributions bayesian normal-distribution model robust

6

Si «la corrélation n'implique pas de causalité», alors si je trouve une corrélation statistiquement significative, comment puis-je prouver la causalité?

Je comprends que la corrélation n'est pas une causalité . Supposons que nous obtenions une forte corrélation entre deux variables. Comment vérifiez-vous si cette corrélation est réellement causale? Ou, dans quelles conditions, exactement, pouvons-nous utiliser des données expérimentales pour déduire une relation causale entre deux ou plusieurs variables?

30 correlation mathematical-statistics causality

7

Inférence vs estimation?

Quelles sont les différences entre "inférence" et "estimation" dans le contexte de l'apprentissage automatique ? En tant que débutant, je pense que nous déduisons des variables aléatoires et estimons les paramètres du modèle. Ma compréhension est-elle juste? Sinon, quelles sont exactement les différences et quand dois-je les utiliser? De plus, …

30 machine-learning inference terminology