Questions marquées «dataset»

Les demandes d'ensembles de données sont hors sujet sur ce site. Utilisez cette balise pour les questions concernant la création, le traitement ou la maintenance des jeux de données.

3
Les données d'entraînement sont déséquilibrées - mais mon ensemble de validation devrait-il l'être également?
J'ai étiqueté des données composées de 10000 exemples positifs et 50000 exemples négatifs, ce qui donne un total de 60000 exemples. Évidemment, ces données sont déséquilibrées. Disons maintenant que je veux créer mon ensemble de validation et que je souhaite utiliser 10% de mes données pour le faire. Ma question …




1
Souhaitez-vous signaler ces données comme frauduleuses?
Supposons que vous ayez reçu des données d'un modèle de bloc aléatoire avec 4 répétitions et 23 traitements. Après une première inspection des données, vous constatez que pour 8 traitements toutes les répétitions sont identiques, ce qui est évidemment faux. Après avoir signalé le problème, vous êtes informé qu'il est …

2
Problèmes avec la détection des valeurs aberrantes
Dans un article de blog, Andrew Gelman écrit : La régression pas à pas est l'une de ces choses, comme la détection des valeurs aberrantes et les graphiques circulaires, qui semblent être populaires parmi les non-statisticiens mais qui sont considérés par les statisticiens comme une plaisanterie. Je comprends la référence …

2
Analyse des données de rotation de la roue de hamster
Avant de poster cette question, j'avais parcouru d'autres questions sur cette pile, et cela va probablement être une promenade dans le parc pour tous ceux qui la liront! Mais la description de cette pile comprend l'analyse et la visualisation des données, donc j'espère que c'est au bon endroit! </preapology> J'utilise …


2
Fonction de vraisemblance des données tronquées
J'ai un peu de mal à comprendre le concept et la dérivation de la probabilité de données tronquées. Par exemple, si je veux trouver la fonction de vraisemblance basée sur un échantillon d'une distribution, mais en prenant un échantillon de la distribution, j'observe les valeurs tronquées (où il y a …

1
Intervalles de confiance lors de l'utilisation du théorème de Bayes
Je calcule des probabilités conditionnelles et des intervalles de confiance à 95% associés. Pour bon nombre de mes cas, j'ai un décompte simple des xsuccès des nessais (à partir d'un tableau de contingence), donc je peux utiliser un intervalle de confiance binomial, tel que celui fourni par binom.confint(x, n, method='exact')dans …


1
Que signifie ce flou autour de la ligne dans ce graphique?
Je jouais avec ggplot2 en utilisant les commandes suivantes pour ajuster une ligne à mes données: ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + stat_sum_single(median) + stat_sum_single(mean, colour="blue") + geom_smooth(level = 0.95, aes(group=1), method="lm") Les points rouges sont des valeurs médianes, le bleu est la …

2
Jeux de données de jeux informatiques
Je cherchais des jeux de données de jeux informatiques, mais jusqu'à présent, je n'ai pu trouver que le jeu de données «Historique des avatars» pour WoW. Existe-t-il d'autres ensembles de données intéressants, peut-être pour d'autres genres?
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.