Vue d'ensemble
Il existe de nombreuses représentations possibles, et donc des schémas de base de données, permettant de stocker des dates-heures floues (ou même simplement des dates floues):
- Date-heure et code indiquant sa précision ou exactitude
- Date-heure et intervalle où il y a plusieurs possibilités pour représenter un intervalle:
- Représente tous les intervalles sous forme de nombre entier (ou autre nombre) d'une unité fixe, par exemple jours, minutes, nanosecondes.
- Représente un intervalle sous la forme d'un nombre entier (ou d'un autre nombre) et d'un code indiquant ses unités.
- Heures de début et de fin
- Chaîne
- Distribution de probabilité:
- Quantités décimales ou à virgule flottante pour les paramètres spécifiant une distribution spécifique dans une famille particulière, par exemple, écart type et écart type d’une distribution normale.
- Fonction de distribution de probabilité, par exemple sous forme de code (de référence) (éventuellement avec des paramètres de valeurs spécifiques), ou sous forme d'expression dans un langage, un format ou une représentation suffisamment expressif.
[1], [2] et [3] sont tous (implicitement) des intervalles uniformes, c'est-à-dire un ensemble de points dans le temps (égaux).
[4] est le plus expressif, c’est-à-dire lorsqu’il permet des phrases ou des expressions écrites possibles (ou du moins arbitrairement longues). Mais c'est aussi le plus difficile à travailler. À la limite, une IA au niveau humain serait nécessaire pour gérer des valeurs arbitraires. Pratiquement, la plage de valeurs possibles devrait être sévèrement restreinte et des valeurs «structurées» alternatives seraient probablement préférées pour de nombreuses opérations, telles que le tri, la recherche.
[5] est probablement la représentation compacte la plus générale qui soit (un peu) pratique.
Intervalles uniformes
Les intervalles uniformes constituent le moyen le plus simple et le plus simple de représenter un ensemble de valeurs (possibles) date-heure.
Pour [1], les parties de la valeur date-heure sont ignorées, c'est-à-dire les parties correspondant à des unités plus fines que la précision ou l'exactitude indiquée. sinon, cela équivaut à [2] et le code précision / exactitude est équivalent à un intervalle avec les mêmes unités (et une quantité implicite de 1).
[2] et [3] sont expressément équivalents. [1] est strictement moins expressif que l'un ou l'autre puisqu'il existe des intervalles efficaces qui ne peuvent pas être représentés par [1], ex. une date-heure floue équivalente à un intervalle de 12 heures couvrant une limite de date.
[1] est plus facile à saisir pour les utilisateurs que toute autre représentation et devrait généralement nécessiter (au moins légèrement) moins de dactylographie. Si les dates peuvent être entrées dans différentes représentations textuelles, par exemple "2013", "2014-3", "2015-5-2", "30/07/2016 11p", "2016-07-31 18:15" , la précision ou l'exactitude peut également être déduite automatiquement de l'entrée.
L’exactitude ou la précision de [1] est également plus facile à convertir en un formulaire à transmettre aux utilisateurs, par exemple «2015-2015 avec l’exactitude mensuelle» en «mai 2015», par opposition à «13 mai 2015 2p, plus ou moins 13,5 jours». (notez que ce dernier ne peut de toute façon pas être représenté par [1]).
Les cordes
Dans la pratique, les valeurs de chaîne devront être converties en d'autres représentations pour interroger, trier ou comparer plusieurs valeurs. Ainsi, alors que tout langage naturel (humain) écrit est strictement plus expressif que [1], [2], [3] ou [5], nous n'avons pas encore les moyens de gérer beaucoup plus que des représentations ou des formats de texte standard. Compte tenu de cela, c'est probablement la représentation la moins utile en soi .
L'un des avantages de cette représentation est que les valeurs doivent, dans la pratique, être présentées aux utilisateurs tels quels et ne pas nécessiter de transformation pour être facilement compréhensibles.
Distributions de probabilité
Les distributions de probabilité généralisent les représentations d'intervalle uniforme [1], [2], [3] et (sans doute) sont équivalentes à la représentation (générale) sous forme de chaîne [4].
L'un des avantages des distributions de probabilités par rapport aux chaînes est que les premières sont sans ambiguïté.
[5-1] conviendrait pour des valeurs qui (le plus souvent) sont conformes à une distribution existante, par exemple une valeur date-heure générée par un appareil pour lequel les mesures sont connues (ou supposées) se conformer à une distribution spécifique.
[5-2] est probablement le meilleur moyen (un peu) pratique de représenter de manière compacte des valeurs arbitraires de type "date floue". Bien sûr, la calculabilité des distributions de probabilité spécifiques utilisées est importante et il existe certainement des problèmes intéressants (et peut-être impossibles) à résoudre lors de l'interrogation, du tri ou de la comparaison de valeurs différentes, mais la plupart de ces problèmes sont probablement déjà connus ou résolus quelque part dans le système existant. dans la littérature mathématique et statistique, il s’agit donc d’une représentation extrêmement générale et non ambiguë.