J'utilise un mot différent selon la manière dont j'utilise les données. Si j'ai trouvé l'ensemble de données composé qui traîne et que j'ai pointé mon algorithme de manière confirmative, alors le mot "synthétique" est très bien.
Cependant, souvent lorsque j'utilise ce type de données, j'ai inventé les données avec l'intention spécifique de montrer les capacités de mon algorithme. En d'autres termes, j'ai inventé des données dans le but spécifique d'obtenir de «bons résultats». Dans de telles circonstances, j'aime le terme «artificiel» ainsi qu'une explication de mes attentes pour les données. C'est parce que je ne veux pas que quiconque fasse l'erreur de penser que j'ai pointé mon algorithme vers un ensemble de données synthétiques arbitraires que j'ai trouvé traîner et cela a vraiment bien fonctionné. Si j'ai des données triées sur le volet (au point de les inventer) spécifiquement pour bien faire fonctionner mon algorithme, je le dis. En effet, ces résultats fournissent la preuve que mon algorithme peutfonctionnent bien, mais ne fournissent que des preuves très faibles que l'on pourrait s'attendre à ce que l'algorithme fonctionne bien en général . Le mot «artificiel» résume très bien le fait que j'ai choisi a priori les données avec de «bons résultats».
"cela donne-t-il l'impression de données frauduleuses ?"
Non, mais il est important d'être clair sur la source de tout ensemble de données et vos attentes a priori en tant qu'expérimentateur lors du rapport de vos résultats sur n'importe quel ensemble de données. Le terme "fraude" inclut explicitement un aspect d'avoir dissimulé quelque chose ou d'avoir menti purement et simplement. Le moyen n ° 1 d'éviter la fraude dans le domaine scientifique est simplement d'être honnête et direct sur la nature de vos données et vos attentes. En d'autres termes, si vos données sont fabriquées et que vous omettez de le dire de quelque manière que ce soit , et que vous vous attendez à ce que les données ne soient pas fabriquées ou, pire, vous prétendez que les données sont collectées de manière non fabriquée de façon, alors c'est"fraude". Ne fais pas ça. Si vous voulez utiliser un synonyme pour le terme "fabriqué" qui "sonne mieux", comme "synthétique", personne ne vous en voudra, mais en même temps, je ne pense pas que quiconque remarquera la différence à part vous.
Une note latérale:
Moins évidentes sont les circonstances où l'on prétend avoir eu des attentes a priori qui sont en fait des explications post hoc . Il s'agit également d'une analyse frauduleuse des données.
Il y a un danger à cela lorsque l'on choisit des données spécifiquement dans le but de "montrer" les capacités d'un algorithme, ce qui est souvent le cas avec des données synthétiques.
Pour comprendre pourquoi c'est le cas, considérons que la méthode scientifique "normale" fonctionne comme ceci: 1) Une population est choisie 2) Une hypothèse est concise 3) est testé contre (ou un échantillon choisi parmi ). La science n'a pas à travailler dans cette définition étroite, mais c'est ce qu'on appelle une analyse «confirmatoire», et est généralement considérée comme la forme de preuve la plus solide que l'on puisse fournir. Étant donné que l'ordre des événements est en corrélation avec la force des preuves, il est important de les documenter spécifiquement.DHHDD
Notamment, dans le cas de données « ménagées », le processus fonctionne plus souvent comme ceci: 1) Une hypothèse est conçu, 2) Une population est choisie, 3) est testée contre . Si vous testez un algorithme, par exemple, l'hypothèse que votre nouvel algorithme de fantaisie "fait du bon travail" pourrait se produire avant l'invention de l'ensemble de données synthétique. Si tel est le cas, vous devez le mentionner. À tout le moins, vous ne devez pas prétendre que les événements se sont produits de manière "confirmative", car cela amènerait les lecteurs à conclure que vos preuves sont plus solides qu'elles ne le sont en réalité.HDHD
Il n'y a aucun problème à le faire, tant que vous êtes honnête et direct sur ce que vous avez fait. Si vous avez eu du mal à créer un ensemble de données qui donne de "bons résultats", dites-le. Tant que vous informez le lecteur des étapes que vous avez suivies dans votre analyse de données, il dispose des informations nécessaires pour évaluer efficacement les preuves pour ou contre vos hypothèses. Lorsque vous n'êtes pas honnête ou que vous n'êtes pas franc , cela peut donner l'impression que vos preuves sont plus solides qu'elles ne le sont en réalité. Lorsque vous êtes sciemment moins qu'honnête et franc pour faire en sorte que votre preuve paraisse plus forte qu'elle ne l'est réellement, alors c'est, en effet, frauduleux.
En tout cas, c'est pourquoi je préfère le terme «artificiel» pour de tels ensembles de données, ainsi qu'une brève explication qu'ils sont, en effet, choisis avec une hypothèse en tête. "Conçu" donne le sentiment que non seulement j'ai créé un ensemble de données synthétique, mais je l'ai fait avec des intentions particulières qui reflètent le fait que mon hypothèse était déjà en place avant la création de mon ensemble de données.
Pour illustrer par un exemple: Vous créez un algorithme pour l'analyse de séries chronologiques arbitraires. Vous supposez que cet algorithme donnera de "bons résultats" lorsqu'il est pointé sur des séries chronologiques. Considérez maintenant les deux possibilités suivantes: 1) Vous créez des données synthétiques qui ressemblent au genre de chose sur laquelle vous vous attendez à ce que votre algorithme fonctionne bien. Vous analysez ces données et l'algorithme fonctionne bien. 2) Vous récupérez des jeux de données synthétiques car ils sont disponibles pourquoi pas. Vous analysez ces données et l'algorithme fonctionne bien. Laquelle de ces deux circonstances fournit la meilleure preuve que votre algorithme fonctionne bien sur des séries temporelles arbitraires? De toute évidence, il s'agit de l'option 2. Cependant, il pourrait être facile de signaler dans l'option 1 ou l'option 2 que «nous avons appliqué l'algorithmeAau jeu de données synthétiques . Les résultats sont présentés dans la figure . "En l'absence de tout contexte, un lecteur peut raisonnablement supposer que ces résultats sont confirmatifs (option 2), alors que, dans le cas de l'option 1, ils ne le sont pas. Le lecteur a donc, en option 1, a eu l'impression que la preuve est plus solide qu'elle ne l'est réellement.Dx.y
tl; dr
Utilisez le terme que vous aimez, "synthétique", "artificiel", "fabriqué", "fictif". Cependant, le terme que vous utilisez est insuffisant pour garantir que vos résultats ne sont pas trompeurs . Assurez-vous que votre rapport indique clairement comment les données ont été produites, y compris vos attentes à l'égard des données et les raisons pour lesquelles vous avez choisi les données que vous avez choisies.