Il existe plusieurs jeux de données classiques pour les tâches de classification / régression d'apprentissage automatique. Les plus populaires sont:
Mais quelqu'un connaît-il des ensembles de données similaires pour l'analyse des réseaux / la théorie des graphes? Plus concret - je recherche des ensembles de données standard Gold pour comparer / évaluer / apprendre:
- mesures de centralité;
- algorithmes de regroupement de réseaux.
Je n'ai pas besoin d'une énorme liste de réseaux / graphiques accessibles au public, mais de deux ensembles de données incontournables.
ÉDITER:
Il est assez difficile de fournir des fonctionnalités exactes pour un "ensemble de données standard d'or", mais voici quelques réflexions. Je pense qu'un véritable ensemble de données classique devrait satisfaire ces critères:
- Références multiples dans des articles et des manuels;
- Inclusion dans des progiciels d'analyse de réseau bien connus;
- Durée d'existence suffisante;
- Utilisation dans un certain nombre de cours sur l'analyse graphique.
Concernant mon domaine d'intérêt, j'ai également besoin de classes étiquetées pour les sommets et / ou les «scores d'autorité» précalculés (ou prédéfinis) (c'est-à-dire les estimations de centralité). Après avoir posé cette question, j'ai continué à chercher, et voici quelques exemples appropriés:
- Zachary's Karate Club : introduit en 1977, cité plus de 1,5 km (selon Google Scholar), les sommets ont l'attribut Faction (qui peut être utilisé pour le clustering).
- Erdos Collaboration Network : malheureusement, je n'ai pas trouvé ce réseau sous forme de fichier de données, mais il est plutôt célèbre, et si quelqu'un enrichit le réseau avec les données de spécialisation des mathématiciens, il pourrait également être utilisé pour tester des algorithmes de clustering.