Comme contexte: lorsque je travaille avec un ensemble de données très volumineux, on me demande parfois si nous pouvons créer un ensemble de données synthétiques où nous «connaissons» la relation entre les prédicteurs et la variable de réponse, ou les relations entre les prédicteurs.
Au fil des ans, je semble rencontrer soit des ensembles de données synthétiques uniques, qui semblent avoir été préparés de manière ad hoc, soit des ensembles de données plus structurés qui semblent particulièrement favorables à la méthode de modélisation proposée par le chercheur.
Je crois que je recherche des méthodes standard pour créer des ensembles de données synthétiques. Bien que le rééchantillonnage bootstrap soit une méthode courante pour créer un ensemble de données synthétiques, il ne satisfait pas à la condition que nous connaissions la structure a priori . De plus, l'échange d'échantillons bootstrap avec d'autres nécessite essentiellement l'échange de données plutôt qu'une méthode de génération de données.
Si nous pouvons adapter une distribution paramétrique aux données ou trouver un modèle paramétré suffisamment proche, alors c'est un exemple où nous pouvons générer des ensembles de données synthétiques.
Quelles autres méthodes existent? Je m'intéresse particulièrement aux données de haute dimension, aux données clairsemées et aux données de séries chronologiques. Pour les données de grande dimension, je rechercherais des méthodes pouvant générer des structures (par exemple structure de covariance, modèles linéaires, arbres, etc.) intéressantes. Pour les données de séries chronologiques, des distributions sur des FFT, des modèles AR ou divers autres modèles de filtrage ou de prévision semblent être un début. Pour les données clairsemées, la reproduction d'un motif de rareté semble utile.
Je crois que cela ne fait qu'effleurer la surface - ce sont des pratiques heuristiques et non formelles. Existe-t-il des références ou des ressources pour générer des données synthétiques qui devraient être connues des praticiens?
Note 1: Je me rends compte que cette question aborde la littérature sur la façon dont on peut générer des données comme un modèle de série chronologique particulier. La distinction ici porte sur les pratiques, notamment pour indiquer une structure connue (ma question), par rapport à la similitude / fidélité à un ensemble de données existant. Il n'est pas nécessaire dans mon cas d'avoir une similitude, autant que la structure connue, bien que la similitude soit grandement préférée à la dissimilarité. Un ensemble de données synthétiques exotiques pour lequel un modèle est prometteur est moins préféré qu'une simulation réaliste.
Remarque 2: L' entrée Wikipedia pour les données synthétiques souligne que des sommités telles que Rubin et Fienberg ont résolu ce problème, bien que je n'ai trouvé aucune référence sur les meilleures pratiques. Il serait intéressant de savoir ce qui se passerait avec, disons, les Annals of Applied Statistics (ou l'AOS), ou dans les travaux de revue de ces revues ou d'autres. En termes simples et fantaisistes, on peut se demander où existe le seuil entre "(acceptablement) cuit" et "trop cuit"?
Remarque 3: bien que cela n'affecte pas la question, le scénario d'utilisation consiste à modéliser des ensembles de données de grande taille et de grande taille, où le programme de recherche consiste à apprendre (à la fois par l'homme et par la machine ;-)) la structure des données. Contrairement aux scénarios univariés, bivariés et autres scénarios de faible dimension, la structure n'est pas facilement déduite. Alors que nous progressons vers une meilleure compréhension de la structure, il est intéressant de pouvoir générer des ensembles de données avec des propriétés similaires afin de voir comment une méthode de modélisation interagit avec les données (par exemple pour examiner la stabilité des paramètres). Néanmoins, les anciens guides sur les données synthétiques de faible dimension peuvent être un point de départ qui peut être étendu ou adapté pour des ensembles de données de dimension supérieure.