Dans l'analyse de régression, quelle est la différence entre «processus de génération de données» et «modèle»?
Dans l'analyse de régression, quelle est la différence entre «processus de génération de données» et «modèle»?
Réponses:
Nous avons tous une bonne idée de ce que «modèle» pourrait signifier, bien que sa définition technique varie selon les disciplines. Pour comparer cela à DGP, j'ai commencé par regarder les cinq premiers hits (en comptant deux hits avec le même auteur comme un) dans Google "processus de génération de données".
Un document sur la façon dont l'US Air Force crée réellement des données dans le soutien logistique.
Résumé d'un article publié dans Environment and Planning A concernant la création de "micropopulations synthétiques" via des "modèles de simulation" informatiques.
Une page Web sur la «génération de données synthétiques»; c'est-à-dire la simulation "pour explorer les effets de certaines caractéristiques des données sur ... les modèles".
Résumé d'un document de conférence sur l'exploration de données, affirmant que «les données dans les bases de données sont le résultat d'un processus de génération de données sous-jacent (dgp)».
Un chapitre de livre qui caractérise les données d'intérêt comme "résultant d'une transformation d'un processus [stochastique] sous-jacent ... certains ou tous [dont] peuvent être non observés ..."V t
Ces liens présentent trois utilisations légèrement différentes mais étroitement liées du terme «processus de génération de données». Le plus courant est dans un contexte de simulation statistique. Les autres se réfèrent aux moyens réels par lesquels les données sont créées dans une situation continue (logistique) et à un modèle de probabilité pour une procédure de création de données en cours, destiné à ne pas être analysé directement. Dans le dernier cas, le texte différencie un processus stochastique inobservable, qui est néanmoins modélisé mathématiquement, des nombres réels qui seront analysés.
Ceux-ci suggèrent que deux réponses légèrement différentes sont tenables:
Dans le contexte de la simulation ou de la création de données "synthétiques" pour l'analyse, le "processus de génération de données" est un moyen de produire des données pour une étude ultérieure, généralement au moyen d'un générateur de nombres pseudo-aléatoires d'un ordinateur. L'analyse adoptera implicitement un modèle qui décrit les propriétés mathématiques de ce DGP.
Dans le cadre de l'analyse statistique, on peut vouloir distinguer un phénomène du monde réel (le DGP) des observations qui seront analysées. Nous avons des modèles pour le phénomène et les observations ainsi qu'un modèle pour la façon dont les deux sont connectés.
( X 1 i , X 2 i , … , X p i , Y i ) i = 1 , 2 , … , n
Le DGP est le vrai modèle. Le modèle est ce que nous avons essayé de faire, en utilisant nos meilleures compétences, pour représenter le véritable état de la nature. Le DGP est influencé par le "bruit". Le bruit peut être de plusieurs types:
Si vous ne contrôlez pas ces 6 éléments, votre capacité à identifier le vrai DGP est réduite.
La réponse de Whuber est excellente, mais il convient de souligner que le modèle statistique n'a pas besoin de ressembler au modèle de génération de données à tous égards pour être un modèle approprié pour l'exploration inférentielle des données. Liu et Meng expliquent ce point avec une grande clarté dans leur récent article arXived ( http://arxiv.org/abs/1510.08539 ):
Idée reçue 1. Un modèle de probabilité doit décrire la génération des données.
). Ce point n'est nulle part plus clair que dans les applications impliquant des expériences informatiques où un modèle probabiliste est utilisé pour décrire des données suivant un modèle déterministe connu (mais très compliqué) (Kennedy et O'Hagan, 2001; Conti et al., 2009). Nous avons besoin d'un modèle descriptif, pas nécessairement d'un modèle génératif. Voir Lehmann (1990), Breiman (2001) et Hansen et Yu (2001) pour plus d'informations sur ce point.
DGP est la réalité virtuelle et une recette unique de simulation. Un modèle est une collection de DGP ou des manières possibles de générer les données.
Lisez la première page de ce mini cours de Russell Davidson:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf