Statistiques et Big Data dataset

10

Verrouillé . Cette question et ses réponses sont verrouillées car la question est hors sujet mais a une signification historique. Il n'accepte pas actuellement de nouvelles réponses ou interactions. Je recherche des jeux de données de réseaux sociaux (twitter, friendfeed, facebook, lastfm, etc.) pour les tâches de classification, de préférence …

18 classification dataset

2

Test de la classification sur des données de déséquilibre suréchantillonnées

Je travaille sur des données gravement déséquilibrées. Dans la littérature, plusieurs méthodes sont utilisées pour rééquilibrer les données en utilisant un rééchantillonnage (sur ou sous-échantillonnage). Deux bonnes approches sont: SMOTE: TEchnique de suréchantillonnage des minorités synthétiques ( SMOTE ) ADASYN: Approche d'échantillonnage synthétique adaptative pour l'apprentissage déséquilibré ( ADASYN ) …

18 classification dataset resampling unbalanced-classes oversampling

2

Calcul du 95e centile: comparaison des approches de distribution normale, de quantile R et d'Excel

J'essayais de calculer le 95e centile sur l'ensemble de données suivant. Je suis tombé sur quelques références en ligne de le faire. Approche 1: sur la base d'échantillons de données Le premier me dit d'obtenir le TOP 95 Percentde l'ensemble de données puis de choisir le MINou AVGde l'ensemble résultant. …

17 r dataset quantiles sql

6

Où trouver un grand corpus de texte? [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Vous souhaitez améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 6 ans . Je recherche un grand (> 1000) corpus de texte à …

16 dataset

5

Quel est l'impact de l'augmentation des données de formation sur la précision globale du système?

Quelqu'un peut-il résumer pour moi avec des exemples possibles, dans quelles situations l'augmentation des données de formation améliore le système global? Quand détectons-nous que l'ajout de données d'entraînement pourrait éventuellement sur-ajuster les données et ne pas donner de bonnes précisions sur les données de test? Il s'agit d'une question très …

16 machine-learning classification dataset precision-recall

4

Quels sont les bons ensembles de données pour illustrer des aspects particuliers de l'analyse statistique?

Je me rends compte que c'est subjectif, mais j'ai pensé que ce serait bien de parler de nos ensembles de données préférés et de ce que nous pensons les rend intéressants. Il y a une multitude de données là-bas, et avec toutes les API (par exemple, Datamob ) ainsi que …

16 dataset

5

Est-il préférable de faire une analyse exploratoire des données sur l'ensemble de données de formation uniquement?

Je fais l'analyse exploratoire des données (EDA) sur un ensemble de données. Ensuite, je sélectionnerai certaines fonctionnalités pour prédire une variable dépendante. La question est: dois-je faire l'EDA sur mon ensemble de données de formation uniquement? Ou dois-je joindre les ensembles de données de formation et de test ensemble, puis …

15 dataset feature-selection feature-construction eda

4

Hébergement gratuit de données d'intérêt public? [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 4 ans . J'ai des rapports de température horaires et quotidiens pour de nombreuses …

14 dataset

3

Comment augmenter les données et valider le train?

Je fais la classification d'images en utilisant l'apprentissage automatique. Supposons que j'ai des données d'entraînement (images) et que je vais diviser les données en ensembles d'apprentissage et de validation. Et je veux aussi augmenter les données (produire de nouvelles images à partir des images originales) par des rotations aléatoires et …

14 machine-learning classification cross-validation dataset data-augmentation

6

Des moyens rapides dans R pour obtenir la première ligne d'une trame de données regroupées par un identifiant [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 2 ans . Parfois, je n'ai besoin d'obtenir que la première ligne d'un ensemble …

14 r dataset aggregation plyr

2

Comment la validation croisée k-fold s'inscrit-elle dans le contexte des ensembles de formation / validation / test?

Ma principale question est de savoir comment comprendre la validation croisée k-fold dans le contexte des ensembles de formation / validation / test (si cela correspond à un tel contexte). Habituellement, les gens parlent de diviser les données en un ensemble de formation, de validation et de test - disons …

14 cross-validation dataset overfitting

4

Où trouver des données brutes sur les essais cliniques? [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 2 ans . Je souhaite utiliser des données brutes sur les essais cliniques pour …

13 dataset teaching clinical-trials

2

Comment convertir une table de fréquences en un vecteur de valeurs?

En utilisant R ou Excel, quelle est la manière la plus simple de convertir une table de fréquences en un vecteur de valeurs? Par exemple, comment convertiriez-vous le tableau de fréquences suivant Value Frequency 1. 2 2. 1 3. 4 4. 2 5. 1 dans le vecteur suivant? 1, 1, …

13 r dataset excel

4

Séparer deux populations de l'échantillon

J'essaie de séparer deux groupes de valeurs d'un même ensemble de données. Je peux supposer que l'une des populations est normalement distribuée et représente au moins la moitié de la taille de l'échantillon. Les valeurs du second sont à la fois inférieures ou supérieures aux valeurs du premier (la distribution …

13 dataset outliers expectation-maximization

4

Meilleures façons d'agréger et d'analyser les données

Ayant récemment commencé à m'enseigner moi-même l'apprentissage automatique et l'analyse des données, je me retrouve à frapper un mur de briques sur la nécessité de créer et d'interroger de grands ensembles de données. Je voudrais prendre des données que j'ai agrégées dans ma vie professionnelle et personnelle et les analyser, …

13 data-mining dataset eda

Questions marquées «dataset»