Il y a déjà de bonnes réponses ici et je ne pense pas pouvoir pénétrer plus profondément que Nick Cox ou Franck Dernoncourt la question de savoir si "l'ensemble de données" se réfère à la collecte conceptuelle de données connexes, ou à l' arrangement particulier de ces données, par exemple dans une table / matrice ou un fichier lisible par ordinateur. L'extrait de Franck mentionne des cas marginaux comme des données collectées en continu ou des données réparties sur plusieurs tableaux, qui méritent d'être prises en compte si vous supposez qu'il y aura une définition simple. (Tous les logiciels de statistiques ne peuvent pas le gérer, mais il est très facile d'imaginer un cas où les données sont stockées dans une base de données relationnelle avec plusieurs tables. La base de données entière est-elle un "ensemble de données" unique?)
Une chose que j'ajouterai cependant, c'est que les ensembles de données ne sont généralement pas des ensembles, au sens mathématique! Sensu stricto soit un ensemble contient un objet, soit il n'en contient pas, mais ne peut pas contenir plus d'une copie de cet objet. Si je lance un dé huit fois et que je marque 1, 4, 3, 5, 5, 4, 6, 4, alors l' ensemble des scores obtenus est simplement {1, 3, 4, 5, 6}. Notez que les éléments peuvent être dans n'importe quel ordre, je viens de les écrire en ordre croissant mais l'ensemble {5, 4, 1, 6, 3} est mathématiquement égal à lui, par exemple. Ce n'est cependant pas ce que nous entendons habituellement par un ensemble de données!
X¯= 1n∑ni = 1XjeX1X2
Mais les vecteurs ne servent qu'à enregistrer une variable - pour plusieurs, il peut être plus pratique d'utiliser une matrice pour tabuler avec l'ordre préservé. Pour des situations plus sophistiquées telles que la mesure d'une propriété d'une grille tridimensionnelle de voxels dans le temps, vous pouvez même passer à la disposition des données dans un tenseur (voir par exemple cette question ).
Mais notez que conceptuellement un multiset peut suffire dans la plupart des situations simples, même s'il n'est pas pratique à des fins pratiques. Si je lançais une pièce simultanément avec le lancer du dé et que je voulais enregistrer les deux résultats ensemble, je pouvais utiliser un multiset comme {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} au lieu d'une matrice. Un ensemble ordinaire ne suffira pas, car il ne compterait pas la multiplicité des (4, H), par exemple.