Un ensemble de données est une collection de données, souvent sous forme de tableau ou de matrice. Cette balise n'est PAS destinée aux demandes de données ("où puis-je trouver un ensemble de données sur ...") -> voir OpenData
L'un des problèmes courants de la science des données est la collecte de données provenant de diverses sources dans un format (semi-structuré) en quelque sorte nettoyé et la combinaison de métriques provenant de différentes sources pour effectuer une analyse de niveau supérieur. En regardant les efforts des autres, en particulier …
Ma tâche d'apprentissage automatique consiste à séparer le trafic Internet bénin du trafic malveillant. Dans le scénario réel, la majorité (par exemple 90% ou plus) du trafic Internet est bénigne. Ainsi, j’ai pensé que je devrais également choisir une configuration de données similaire pour la formation de mes modèles. Mais …
J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine d'essayer de faire …
J'ai un problème de classification avec environ 1000 échantillons positifs et 10000 négatifs dans l'ensemble de formation. Cet ensemble de données est donc assez déséquilibré. La forêt aléatoire simple tente simplement de marquer tous les échantillons de test comme une classe majoritaire. Voici quelques bonnes réponses sur le sous-échantillonnage et …
En tant qu'extension de notre grande liste d' ensembles de données disponibles publiquement , j'aimerais savoir s'il existe une liste d'ensembles de données de réseaux sociaux / API d'exploration accessibles au public. Ce serait très bien si à côté d'un lien vers l'ensemble de données / API, les caractéristiques des …
Une technique courante après la formation, la validation et le test du modèle préféré de Machine Learning consiste à utiliser l'ensemble de données complet, y compris le sous-ensemble de test, pour former un modèle final pour le déployer , par exemple un produit. Ma question est: est-ce toujours le mieux …
Fermé . Cette question est basée sur l'opinion . Il n'accepte pas actuellement de réponses. Vous souhaitez améliorer cette question? Mettez à jour la question afin d'y répondre avec des faits et des citations en modifiant ce message . Fermé il y a 5 ans . Je ne sais pas …
Généralement, le modèle d'apprentissage automatique est construit sur des ensembles de données. Je voudrais savoir s'il existe un moyen de générer un ensemble de données synthétique en utilisant un tel modèle d'apprentissage automatique formé en préservant les caractéristiques originales de l'ensemble de données? [données originales -> construire un modèle d'apprentissage …
Je recherche actuellement des ensembles de données étiquetés pour former un modèle pour extraire des entités nommées à partir de texte informel (quelque chose de similaire aux tweets). Parce que la capitalisation et la grammaire font souvent défaut dans les documents de mon jeu de données, je recherche des données …
Je travaille sur un défi Kaggle où certaines variables sont représentées par des lignes au lieu de colonnes (Telstra Network Disruption). Je suis actuellement à la recherche de l'équivalent de recueillir (), séparé () et réparti (), qui peut être trouvé dans l'outil R tidyr.
Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen …
J'espère que cette question est la plus appropriée sur ce site ... En Python, le nom de classe est généralement défini en utilisant la majuscule comme premier caractère, par exemple class Vehicle: ... Cependant, dans le domaine de l'apprentissage automatique, les données d'entraînement et de test sont souvent définies comme …
Si je regarde l'une des nombreuses sources des classes Imagenet sur Internet, je ne trouve pas une seule classe liée aux êtres humains (et non, moissonneur n'est pas quelqu'un qui récolte, mais c'est ce que je savais en tant que papa pattes longues, une sorte de Araign? e :-). Comment …
Je suis un débutant en apprentissage automatique et je suis confronté à une situation. Je travaille sur un problème d'enchères en temps réel, avec l'ensemble de données IPinYou et j'essaie de faire une prédiction de clic. Le fait est que, comme vous le savez peut-être, l'ensemble de données est très …
J'ai un ensemble de résultats d'un test A / B (un groupe de contrôle, un groupe d'entités) qui ne correspondent pas à une distribution normale. En fait, la distribution ressemble plus à la distribution de Landau. Je crois que le test t indépendant nécessite que les échantillons soient au moins …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.