Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Je veux modéliser une régression logistique avec des données déséquilibrées (9: 1). Je voulais essayer l'option de poids dans la glmfonction dans R, mais je ne suis pas sûr à 100% de ce qu'elle fait. Disons que ma variable de sortie est c(0,0,0,0,0,0,0,0,0,1). maintenant je veux donner au "1" 10 …
Eh bien récemment, je travaillais sur l'apprentissage d'algorithmes de renforcement, tels que adaboost, gradient boost, et je savais que le plus faible apprenant utilisé était les arbres. Je veux vraiment savoir s'il existe des exemples récents de succès (je veux dire des articles ou des articles) pour utiliser les réseaux …
Par souci de simplicité, disons que je travaille sur l'exemple classique des e-mails spam / non-spam. J'ai un ensemble de 20000 e-mails. Parmi ceux-ci, je sais que 2000 sont du spam, mais je n'ai aucun exemple d'e-mails non-spam. Je voudrais prédire si les 18 000 restants sont du spam ou …
Supposons que j'essaie d'estimer un grand nombre de paramètres à partir de données de grande dimension, en utilisant une sorte d'estimations régularisées. Le régularisateur introduit un certain biais dans les estimations, mais il peut toujours être un bon compromis car la réduction de la variance devrait plus que compenser. Le …
J'ai du mal à comprendre ce qu'est un processus d'amorçage bayésien et en quoi cela différerait de votre amorçage normal. Et si quelqu'un pouvait proposer un examen intuitif / conceptuel et une comparaison des deux, ce serait formidable. Prenons un exemple. Disons que nous avons un ensemble de données X …
Je lisais le rapport de la solution gagnante d'un concours Kaggle ( Malware Classification ). Le rapport peut être trouvé dans cet article du forum . Le problème était un problème de classification (neuf classes, la métrique était la perte logarithmique) avec 10000 éléments dans le train, 10000 éléments dans …
Préambule Ceci est un long post. Si vous relisez ceci, veuillez noter que j'ai révisé la partie question, bien que le matériel de base reste le même. De plus, je pense avoir conçu une solution au problème. Cette solution apparaît au bas de l'article. Merci à CliffAB d'avoir souligné que …
Gelman et Hill (2006) écrivent à la p46 que: L'hypothèse de régression qui est généralement la moins importante est que les erreurs sont normalement distribuées. En fait, aux fins de l'estimation de la droite de régression (par rapport à la prévision de points de données individuels), l'hypothèse de normalité est …
J'essaie de me présenter quand il convient d'utiliser quel type de régression (géométrique, Poisson, binôme négatif) avec les données de comptage, dans le cadre GLM (seules 3 des 8 distributions GLM sont utilisées pour les données de comptage, bien que la plupart de ce que J'ai lu des centres autour …
Cette distribution discrète a-t-elle un nom? Pouri ∈ 1 ... Ni∈1...Ni \in 1...N F( i ) = 1N∑Nj = i1jf(i)=1N∑j=iN1jf(i) = \frac{1}{N} \sum_{j = i}^N \frac{1}{j} Je suis tombé sur cette distribution parmi les éléments suivants: J'ai une liste de éléments classés par une fonction d'utilité. Je souhaite sélectionner au …
Dans de nombreuses applications d'apprentissage automatique, les méthodes dites d'augmentation des données ont permis de construire de meilleurs modèles. Par exemple, supposons un ensemble de formation de images de chats et de chiens. En tournant, en miroir, en ajustant le contraste, etc., il est possible de générer des images supplémentaires …
Quelqu'un pourrait-il me conseiller sur la façon d'interpréter les estimations à partir d'une régression logistique en utilisant un lien de cloglog? J'ai installé le modèle suivant dans lme4: glm(cbind(dead, live) ~ time + factor(temp) * biomass, data=mussel, family=binomial(link=cloglog)) Par exemple, l'estimation du temps est de 0,015. Est-il exact de dire …
Récemment, j'ai parcouru plusieurs articles et ressources en ligne qui mentionnent la causalité de Granger . Une brève navigation dans l'article Wikipédia correspondant m'a laissé l'impression que ce terme fait référence à la causalité dans le contexte des séries chronologiques (ou, plus généralement, des processus stochastiques ). De plus, la …
J'utilise la régression quantile pour trouver des prédicteurs du 90e centile de mes données. Je fais cela dans R en utilisant le quantregpackage. Comment puis-je déterminer pour la régression quantile qui indiquera le degré de variabilité expliqué par les variables prédictives?r2r2r^2 Ce que je veux vraiment savoir: "Toute méthode que …
Soit un bâton de longueur 1 cassé en k+1k+1k+1 fragments uniformément au hasard. Quelle est la distribution de la longueur du plus long fragment? Plus formellement, soit (U1,…Uk)(U1,…Uk)(U_1, \ldots U_k) soit IID U(0,1)U(0,1)U(0,1) , et soit (U(1),…,U(k))(U(1),…,U(k))(U_{(1)}, \ldots, U_{(k)}) les statistiques d'ordre associées, c'est-à - dire que nous commandons simplement …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.