Statistiques et Big Data

2

Ajout de pondérations à la régression logistique pour les données déséquilibrées

Je veux modéliser une régression logistique avec des données déséquilibrées (9: 1). Je voulais essayer l'option de poids dans la glmfonction dans R, mais je ne suis pas sûr à 100% de ce qu'elle fait. Disons que ma variable de sortie est c(0,0,0,0,0,0,0,0,0,1). maintenant je veux donner au "1" 10 …

21 regression logistic classification unbalanced-classes weighted-data

2

Stimuler les réseaux de neurones

Eh bien récemment, je travaillais sur l'apprentissage d'algorithmes de renforcement, tels que adaboost, gradient boost, et je savais que le plus faible apprenant utilisé était les arbres. Je veux vraiment savoir s'il existe des exemples récents de succès (je veux dire des articles ou des articles) pour utiliser les réseaux …

21 neural-networks deep-learning boosting ensemble dropout

3

Comment prédire les résultats avec seulement des cas positifs comme formation?

Par souci de simplicité, disons que je travaille sur l'exemple classique des e-mails spam / non-spam. J'ai un ensemble de 20000 e-mails. Parmi ceux-ci, je sais que 2000 sont du spam, mais je n'ai aucun exemple d'e-mails non-spam. Je voudrais prédire si les 18 000 restants sont du spam ou …

21 machine-learning predictive-models unsupervised-learning supervised-learning semi-supervised

2

couverture des intervalles de confiance avec des estimations régularisées

Supposons que j'essaie d'estimer un grand nombre de paramètres à partir de données de grande dimension, en utilisant une sorte d'estimations régularisées. Le régularisateur introduit un certain biais dans les estimations, mais il peut toujours être un bon compromis car la réduction de la variance devrait plus que compenser. Le …

21 confidence-interval bias regularization ridge-regression coverage-probability

1

Bootstrapping vs Bayesian Bootstrapping conceptuellement?

J'ai du mal à comprendre ce qu'est un processus d'amorçage bayésien et en quoi cela différerait de votre amorçage normal. Et si quelqu'un pouvait proposer un examen intuitif / conceptuel et une comparaison des deux, ce serait formidable. Prenons un exemple. Disons que nous avons un ensemble de données X …

21 bayesian sampling bootstrap

4

«Apprentissage semi-supervisé» - est-ce trop adapté?

Je lisais le rapport de la solution gagnante d'un concours Kaggle ( Malware Classification ). Le rapport peut être trouvé dans cet article du forum . Le problème était un problème de classification (neuf classes, la métrique était la perte logarithmique) avec 10000 éléments dans le train, 10000 éléments dans …

21 machine-learning random-forest boosting overfitting semi-supervised

1

Est-ce que je viens d'inventer une méthode bayésienne pour l'analyse des courbes ROC?

Préambule Ceci est un long post. Si vous relisez ceci, veuillez noter que j'ai révisé la partie question, bien que le matériel de base reste le même. De plus, je pense avoir conçu une solution au problème. Cette solution apparaît au bas de l'article. Merci à CliffAB d'avoir souligné que …

21 machine-learning bayesian sampling roc auc

2

Pourquoi la normalité des résidus est-elle «à peine importante du tout» aux fins de l'estimation de la droite de régression?

Gelman et Hill (2006) écrivent à la p46 que: L'hypothèse de régression qui est généralement la moins importante est que les erreurs sont normalement distribuées. En fait, aux fins de l'estimation de la droite de régression (par rapport à la prévision de points de données individuels), l'hypothèse de normalité est …

21 regression residuals assumptions

1

Quand utiliser les GLM binomiaux Poisson vs géométrique vs négatif pour les données de comptage?

J'essaie de me présenter quand il convient d'utiliser quel type de régression (géométrique, Poisson, binôme négatif) avec les données de comptage, dans le cadre GLM (seules 3 des 8 distributions GLM sont utilisées pour les données de comptage, bien que la plupart de ce que J'ai lu des centres autour …

21 generalized-linear-model negative-binomial count-data poisson-regression zero-inflation

2

Cette distribution discrète a-t-elle un nom?

Cette distribution discrète a-t-elle un nom? Pouri ∈ 1 ... Ni∈1...Ni \in 1...N F( i ) = 1N∑Nj = i1jf(i)=1N∑j=iN1jf(i) = \frac{1}{N} \sum_{j = i}^N \frac{1}{j} Je suis tombé sur cette distribution parmi les éléments suivants: J'ai une liste de éléments classés par une fonction d'utilité. Je souhaite sélectionner au …

21 probability terminology discrete-data distributions

2

Techniques d'augmentation des données pour les ensembles de données générales?

Dans de nombreuses applications d'apprentissage automatique, les méthodes dites d'augmentation des données ont permis de construire de meilleurs modèles. Par exemple, supposons un ensemble de formation de images de chats et de chiens. En tournant, en miroir, en ajustant le contraste, etc., il est possible de générer des images supplémentaires …

21 machine-learning predictive-models dataset independence data-augmentation

1

interpréter les estimations de la régression logistique du cloglog

Quelqu'un pourrait-il me conseiller sur la façon d'interpréter les estimations à partir d'une régression logistique en utilisant un lien de cloglog? J'ai installé le modèle suivant dans lme4: glm(cbind(dead, live) ~ time + factor(temp) * biomass, data=mussel, family=binomial(link=cloglog)) Par exemple, l'estimation du temps est de 0,015. Est-il exact de dire …

21 logistic regression-coefficients

2

Quelles sont les principales différences entre les cadres de causalité de Granger et Pearl?

Récemment, j'ai parcouru plusieurs articles et ressources en ligne qui mentionnent la causalité de Granger . Une brève navigation dans l'article Wikipédia correspondant m'a laissé l'impression que ce terme fait référence à la causalité dans le contexte des séries chronologiques (ou, plus généralement, des processus stochastiques ). De plus, la …

21 stochastic-processes causality granger-causality

2

R au carré dans la régression quantile

J'utilise la régression quantile pour trouver des prédicteurs du 90e centile de mes données. Je fais cela dans R en utilisant le quantregpackage. Comment puis-je déterminer pour la régression quantile qui indiquera le degré de variabilité expliqué par les variables prédictives?r2r2r^2 Ce que je veux vraiment savoir: "Toute méthode que …

21 r-squared quantile-regression

3

Répartition du plus gros fragment d'un bâton cassé (espacements)

Soit un bâton de longueur 1 cassé en k+1k+1k+1 fragments uniformément au hasard. Quelle est la distribution de la longueur du plus long fragment? Plus formellement, soit (U1,…Uk)(U1,…Uk)(U_1, \ldots U_k) soit IID U(0,1)U(0,1)U(0,1) , et soit (U(1),…,U(k))(U(1),…,U(k))(U_{(1)}, \ldots, U_{(k)}) les statistiques d'ordre associées, c'est-à - dire que nous commandons simplement …

21 distributions uniform order-statistics dirichlet-distribution maximum