Ensembles de données classiques d'analyse de réseau


10

Il existe plusieurs jeux de données classiques pour les tâches de classification / régression d'apprentissage automatique. Les plus populaires sont:

Mais quelqu'un connaît-il des ensembles de données similaires pour l'analyse des réseaux / la théorie des graphes? Plus concret - je recherche des ensembles de données standard Gold pour comparer / évaluer / apprendre:

  1. mesures de centralité;
  2. algorithmes de regroupement de réseaux.

Je n'ai pas besoin d'une énorme liste de réseaux / graphiques accessibles au public, mais de deux ensembles de données incontournables.

ÉDITER:

Il est assez difficile de fournir des fonctionnalités exactes pour un "ensemble de données standard d'or", mais voici quelques réflexions. Je pense qu'un véritable ensemble de données classique devrait satisfaire ces critères:

  • Références multiples dans des articles et des manuels;
  • Inclusion dans des progiciels d'analyse de réseau bien connus;
  • Durée d'existence suffisante;
  • Utilisation dans un certain nombre de cours sur l'analyse graphique.

Concernant mon domaine d'intérêt, j'ai également besoin de classes étiquetées pour les sommets et / ou les «scores d'autorité» précalculés (ou prédéfinis) (c'est-à-dire les estimations de centralité). Après avoir posé cette question, j'ai continué à chercher, et voici quelques exemples appropriés:

  • Zachary's Karate Club : introduit en 1977, cité plus de 1,5 km (selon Google Scholar), les sommets ont l'attribut Faction (qui peut être utilisé pour le clustering).
  • Erdos Collaboration Network : malheureusement, je n'ai pas trouvé ce réseau sous forme de fichier de données, mais il est plutôt célèbre, et si quelqu'un enrichit le réseau avec les données de spécialisation des mathématiciens, il pourrait également être utilisé pour tester des algorithmes de clustering.

1
Je pense que vous pourriez améliorer cette question en définissant un "ensemble de données étalon-or" de manière plus objective. Qu'est-ce qui le rend "incontournable"? Doit-il être référencé dans un certain nombre de manuels? Utilisé dans un certain nombre de modèles publiés? Etc. Sinon, les réponses seront subjectives ET elles changeront avec le temps. Une mauvaise combinaison ici.
Air

Réponses:


5

Ce que vous cherchez peut être trouvé dans KONECT (le site Web est en panne au moment où j'écris ceci mais il devrait être corrigé bientôt!). C'est presque la collecte de données la plus complète pour l'analyse de réseau. Mais la question est laquelle est la plus standard à utiliser?

Eh bien, il n'y a pas de réponse claire à l'exception du club de karaté de Zachary!

Si vous effectuez une revue de la littérature sur les algorithmes de détection communautaire, vous verrez que presque tous les articles brillants utilisent des réseaux différents. Ma suggestion passe par ce qu'Andrea Lancichinetti et Santo Fortunato ont fait pour les graphiques de référence. Ils ont proposé des algorithmes de génération de graphiques de référence, par exemple celui-ci .

J'espère que cela aide :)


vous pouvez le localiser via la machine de renvoi, c'est votre meilleur ami web.archive.org/web/20150402165739/http://konect.uni-koblenz.de/…
albert


1

La seule chose que je sache, ce sont les données de référence pour les bases de données graphiques, telles que Neo4j.

Vous pouvez trouver des liens similaires à celui-ci: http://istc-bigdata.org/index.php/benchmarking-graph-databases/

où vous pouvez trouver des données pour tester l'analyse de réseau et la théorie des graphes.

De plus, vous pouvez jouer avec l'API de Twitter / Facebook pour collecter vos propres données. C'est également une suggestion au cas où vous ne trouveriez pas les données que vous recherchez.


Merci, mais ce n'est pas exactement ce que je recherche. Voir la mise à jour pour plus de détails.
sobach
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.