Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données


3
Mesures de classification / évaluation pour les données très déséquilibrées
Je fais face à un problème de détection de fraude (de type notation de crédit). En tant que tel, il existe une relation très déséquilibrée entre les observations frauduleuses et non frauduleuses. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html fournit un excellent aperçu des différentes métriques de classification. Precision and Recallou les kappadeux semblent être un …

2
Quand devrions-nous discrétiser / classer les variables / caractéristiques indépendantes continues et quand ne le devrions-nous pas?
Quand devrions-nous discrétiser / classer les variables / fonctionnalités indépendantes et quand ne le devrions-nous pas? Mes tentatives pour répondre à la question: En général, nous ne devons pas bin, car le binning perdra des informations. Le binning augmente en fait le degré de liberté du modèle, il est donc …



6
Probabilité - Pourquoi multiplier?
J'étudie l'estimation du maximum de vraisemblance et j'ai lu que la fonction de vraisemblance est le produit des probabilités de chaque variable. Pourquoi est-ce le produit? Pourquoi pas la somme? J'ai essayé de rechercher sur Google, mais je ne trouve aucune réponse significative. https://en.wikipedia.org/wiki/Maximum_likelihood


1
Pourquoi la distribution d'échantillonnage de la variance est-elle une distribution chi carré?
La déclaration La distribution d'échantillonnage de la variance de l'échantillon est une distribution khi carré avec un degré de liberté égal à , où est la taille de l'échantillon (étant donné que la variable aléatoire d'intérêt est normalement distribuée).nn - 1n-1n-1nnn La source Mon intuition Cela a un sens intuitif …




2
Pourquoi est-ce que j'obtiens une variance nulle d'un effet aléatoire dans mon modèle mixte, malgré certaines variations dans les données?
Nous avons exécuté une régression logistique à effets mixtes en utilisant la syntaxe suivante; # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) Le sujet et l'objet sont les effets aléatoires. Nous obtenons un résultat étrange qui …

3
Comment un mauvais passé peut-il conduire à une bonne distribution postérieure?
Nous savons que dans le cas d'une distribution préalable correcte, P(θ∣X)=P(X∣θ)P(θ)P(X)P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta \mid X) = \dfrac{P(X \mid \theta)P(\theta)}{P(X)} ∝P(X∣θ)P(θ)∝P(X∣θ)P(θ) \propto P(X \mid \theta)P(\theta) . La justification habituelle de cette étape est que la distribution marginale de , , est constante par rapport à et peut donc être ignorée lors de la …


3
Pourquoi la probabilité maximale et la probabilité non attendue?
Pourquoi est-il si courant d'obtenir des estimations du maximum de vraisemblance des paramètres, mais vous n'entendez pratiquement jamais parler des estimations des paramètres de vraisemblance attendues (c'est-à-dire basées sur la valeur attendue plutôt que sur le mode d'une fonction de vraisemblance)? Est-ce principalement pour des raisons historiques ou pour des …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.