Comme vous le constatez à juste titre, de nos jours, le "big data" est une chose que tout le monde veut dire, ce qui implique une certaine souplesse dans la définition du terme. En règle générale, cependant, je dirais que vous avez certainement affaire à du big data si l'échelle est telle qu'il n'est plus possible de gérer avec des technologies plus traditionnelles telles que le SGBDR, du moins sans les compléter avec des technologies de big data telles que Hadoop.
La taille de vos données doit être réellement discutable. Voici un article de blog (quelque peu provocant) qui affirme que ce n'est pas vraiment le cas pour moins de 5 To de données. (Pour être clair, il ne dit pas "Moins de 5 To, ce n'est pas du Big Data", mais juste "Moins de 5 To n'est pas assez gros pour que vous ayez besoin de Hadoop".)
Mais même sur des ensembles de données plus petits, les technologies Big Data telles que Hadoop peuvent présenter d’autres avantages, notamment être bien adaptées aux opérations par lots, jouer avec des données non structurées (ainsi que des données dont la structure n’est pas connue à l’avance ou qui pourrait changer), mise à l'échelle en ajoutant plus de nœuds au lieu de renforcer vos serveurs existants), et (en tant que commentateur sur les notes de publication liées ci-dessus), la possibilité d'intégrer votre traitement de données avec des ensembles de données externes (pensez à une carte-réduire où le mappeur appelle un autre serveur). D'autres technologies associées aux mégadonnées, telles que les bases de données NoSql, mettent l'accent sur la rapidité des performances et la disponibilité constante tout en traitant de grands ensembles de données. Elles permettent également de gérer des données semi-non structurées et d'évoluer horizontalement.
Bien entendu, les SGBDR traditionnels ont leurs propres avantages, notamment des garanties ACID (atomicité, cohérence, isolement, durabilité) et de meilleures performances pour certaines opérations, tout en étant plus normalisés, plus matures et (pour beaucoup d'utilisateurs) plus familiers. Ainsi, même pour des données incontestablement "volumineuses", il peut être judicieux de charger au moins une partie de vos données dans une base de données SQL traditionnelle et de l’utiliser en conjonction avec les technologies Big Data.
Donc, une définition plus généreuse serait que vous avez le big data, à condition que sa taille soit suffisante pour que les technologies du big data vous apportent une valeur ajoutée. Mais comme vous pouvez le constater, cela dépend non seulement de la taille de vos données, mais également de la manière dont vous souhaitez les utiliser et des exigences que vous avez en termes de flexibilité, de cohérence et de performances. Comment vous utilisez vos données est plus pertinente à la question que ce que vous l' utilisez pour (par exemple , l' exploration de données). Cela dit, les utilisations telles que l'exploration de données et l'apprentissage automatique ont plus de chances de produire des résultats utiles si vous disposez d'un ensemble de données suffisamment important.