Où peut-on obtenir de bons ensembles de données / problèmes de test pour tester des algorithmes / routines?


41

Lorsque vous évaluez la qualité d'un logiciel que vous êtes sur le point d'utiliser (qu'il s'agisse de quelque chose que vous écrivez ou d'un paquet pré-construit) en calcul, il est souvent judicieux de voir à quel point il fonctionne correctement avec des ensembles de données ou des problèmes standard. Où peut-on obtenir ces tests pour vérifier les routines de calcul?

(Un site / livre par réponse, s'il vous plaît.)


Je voulais que ce soit un message Wiki de la communauté et l’ai donc marqué pour la conversion.
JM

3
Cette question n’est-elle pas trop large, c’est-à-dire que cela dépend des algorithmes / de la nature du problème que ce logiciel est utilisé pour résoudre?
Andre Holzner

Je voulais vraiment que cette question soit un wiki de la communauté , @Andre (en tant que "grande liste" de ressources); Je l'avais marqué pour conversion, mais je ne sais pas pourquoi il n'a pas été converti.
JM

@JM je l'ai converti.
David Ketcheson

Réponses:



13

La méthode de fabrication des solutions est une norme pour tester les PDE et autres solveurs. La plupart des systèmes d’algèbre symbolique disposent d’installations pour générer du code, ce qui est utile pour créer des solutions manufacturées. SymPy et Maple ont la fonction ccode, entre autres à cet effet.




8

Dans le domaine de l'électromagnétisme informatique, il existe un ensemble de problèmes de test célèbres (ou tristement célèbres à cause des difficultés de certains): Tests de méthodes d'analyse électromagnétique (TEAM) .

Certains d'entre eux ont vraiment besoin de techniques numériques de pointe pour obtenir les résultats de simulation corrects alignés sur les données expérimentales. Par exemple, le problème de la bobine de conducteur .

Un autre ensemble de problèmes de test pour les équations de Maxwell sont compilés par Dauge: Calculs de référence pour les équations de Maxwell pour l'approximation de solutions très singulières . Celui du célèbre (ou infâme) Fichera Cube:

Fichera

tout et E = - & phiv vivant sur ce cube sera un défi à vos codes numériques PDE.ϕH1+ϵE=ϕ

Δu=0,where u=rαsin(αθ).

7

Si vous souhaitez analyser des algorithmes liés aux structures moléculaires, la base de données pubchem contient une vaste collection de molécules essentiellement organiques. Cela peut être utile pour comparer les prévisions des propriétés moléculaires obtenues avec différents modèles / programmes. Le site propose plusieurs options pour le téléchargement de gros lots de molécules répondant à certains critères prédéfinis (par exemple, la composition chimique).



7

Le site Web CUTEr met à jour le jeu de tests CUTE mentionné sur le site Web d'Arnold Neumaier avec quelques problèmes supplémentaires d'optimisation et de résolution linéaire. En outre, il fournit des outils logiciels pour tester et mettre à jour l'algèbre linéaire et les solveurs d'optimisation.







3

Alan Genz a proposé une suite de tests de fonctions dans le document Test de routines d'intégration multidimensionnelles . Je ne trouve pas de version en ligne de cet article, mais des références à celle-ci sont disponibles dans les articles sur la bibliothèque CUBA .


3

Vous trouverez ici une collection de problèmes d’optimisation de référence liés à l’EDP gérée par Roland Herzog chez TU-Chemnitz .



2

Si vous recherchez de grands graphiques ou des données réseau sur lesquels effectuer des tests. Le projet d'analyse de réseau de Stanford (SNAP) comprend de nombreux grands ensembles de données graphiques, généralement sous la forme d'une liste de contiguïté anonymisée. Certaines de leurs options incluent:

Les données

Propriétés des données

  • Nombre d'arêtes: entre ~ 10 et ~ 400 millions
  • Nombre de nœuds: entre ~ 10 et ~ 100 millions
  • Types de bord: dirigé, non dirigé, pondéré, non pondéré, signé et non signé.
  • Types de réseaux: dirigé, non dirigé, bipartite, multigraphique, temporel, étiqueté.

Statistiques de vérité au sol disponibles sur les jeux de données:

Outils


@JM pas de problème! Il y a quelque temps, j'ai utilisé certains de leurs jeux de données de réseau social pour un projet, puis suis tombé par hasard sur cet échange de pile et j'ai pensé que cela pourrait être utile ici.
Ryan

-3

Les données sont faciles. L'API pour l'obtenir peut être difficile. Je recommande Quandl . Ce site contient plus de 10 millions d'ensembles de données disponibles au public accessibles via une API simple et conviviale, compatible REST. Toutes les données sont renvoyées au format CSV ou JSON. Ou bien, si la programmation n'est pas votre point fort, il existe des moyens simples d'obtenir les données dans Excel. Les programmeurs R, Python et Ruby seront à l'aise avec les bibliothèques natives.


1
Bienvenue sur Scicomp! Je ne pense pas que ce soit le type de données sur lequel porte la question; pour tester des algorithmes, vous avez besoin non seulement d'un ensemble de données, mais également d'un résultat connu correspondant (en fonction du problème / de l'algorithme) avec lequel comparer vos résultats.
Christian Clason

Merci @ChristianClason. Je vois ce que tu veux dire. Par exemple, si le logiciel est destiné à la régression linéaire, l’auteur s’intéresse aux jeux de données ainsi qu’à un ensemble de résultats d’analyse sélectionnés pour vérifier si le logiciel de régression linéaire fonctionne correctement.
Brian Risk
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.