Les demandes d'ensembles de données sont hors sujet sur ce site. Utilisez cette balise pour les questions concernant la création, le traitement ou la maintenance des jeux de données.
Je vais expliquer mon problème avec un exemple. Supposons que vous souhaitiez prédire le revenu d'un individu en fonction de certains attributs: {âge, sexe, pays, région, ville}. Vous avez un ensemble de données de formation comme ça train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, …
Le jeu de données "Iris" est probablement familier à la plupart des gens ici - c'est l'un des jeux de données de test canoniques et un jeu de données d'exemple pour tout, de la visualisation des données à l'apprentissage automatique. Par exemple, tout le monde dans cette question a fini …
Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute …
Lorsque j'utilise GAM, cela me donne un DF résiduel de (dernière ligne du code). Qu'est-ce que ça veut dire? Au-delà de l'exemple GAM, en général, le nombre de degrés de liberté peut-il être un nombre non entier?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) …
Comme la science doit être reproductible, par définition, il est de plus en plus reconnu que les données et le code sont un élément essentiel de la reproductibilité, comme discuté par la table ronde de Yale pour le partage des données et du code . En examinant un manuscrit pour …
Dans de nombreuses applications d'apprentissage automatique, les méthodes dites d'augmentation des données ont permis de construire de meilleurs modèles. Par exemple, supposons un ensemble de formation de images de chats et de chiens. En tournant, en miroir, en ajustant le contraste, etc., il est possible de générer des images supplémentaires …
Après avoir effectué l'analyse des composants principaux (PCA), je souhaite projeter un nouveau vecteur sur l'espace PCA (c'est-à-dire trouver ses coordonnées dans le système de coordonnées PCA). J'ai calculé PCA en langage R en utilisant prcomp. Maintenant, je devrais pouvoir multiplier mon vecteur par la matrice de rotation PCA. Les …
J'ai fait des recherches sur le sur-ajustement et le sous-ajustement, et j'ai compris ce qu'ils sont exactement, mais je ne trouve pas les raisons. Quelles sont les principales raisons du sur-ajustement et du sous-ajustement? Pourquoi sommes-nous confrontés à ces deux problèmes dans la formation d'un modèle?
Quelles sont les principales différences entre les données rares et les données manquantes? Et comment cela influence-t-il l'apprentissage automatique? Plus précisément, quel effet les données éparses et les données manquantes ont-elles sur les algorithmes de classification et le type d'algorithmes de régression (prédiction des nombres). Je parle d'une situation où …
La «supervision distante» est un schéma d'apprentissage dans lequel un classificateur est appris en fonction d'un ensemble de formation faiblement étiqueté (les données de formation sont étiquetées automatiquement sur la base d'heuristiques / règles). Je pense que l'apprentissage supervisé et l'apprentissage semi-supervisé peuvent inclure une telle «supervision à distance» si …
Je suis nouveau dans l'apprentissage automatique et je recherche des ensembles de données à travers lesquels je peux comparer et contraster les différences entre les différents algorithmes d'apprentissage automatique (Arbres de décision, Boosting, SVM et Réseaux de neurones) Où puis-je trouver de tels ensembles de données? Que dois-je rechercher tout …
J'ai examiné de nombreux ensembles de données R, des publications dans DASL et ailleurs, et je ne trouve pas de très bons exemples d'ensembles de données intéressants illustrant l'analyse de la covariance pour les données expérimentales. Il existe de nombreux ensembles de données "jouets" avec des données artificielles dans les …
Contexte Je supervise l'entrée des données de la littérature primaire dans une base de données . Le processus de saisie des données est sujet aux erreurs, en particulier parce que les utilisateurs doivent interpréter la conception expérimentale, extraire les données des graphiques et des tableaux et transformer les résultats en …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.