Ok, analysons l'exemple de l'enfant qui regroupe ses jouets.
Imaginez que l'enfant n'ait que 3 jouets:
- un ballon de foot bleu
- un freesbe bleu
- un cube vert (ok peut-être que ce n'est pas le jouet le plus amusant que vous puissiez imaginer)
Faisons l'hypothèse initiale suivante sur la manière de fabriquer un jouet:
- Les couleurs possibles sont: rouge, vert, bleu
- Les formes possibles sont: cercle, carré, triangle
Nous pouvons maintenant avoir (num_colors * num_shapes) = 3 * 3 = 9 grappes possibles.
Le garçon regrouperait les jouets comme suit:
- CLUSTER A) contient la boule bleue et le freesbe bleu, car ils ont la même couleur et la même forme
- CLUSTER B) contient le super cube vert
En utilisant uniquement ces 2 dimensions (couleur, forme), nous avons 2 groupes non vides: dans ce premier cas, 7/9 à 77% de notre espace est vide.
Maintenant augmentons le nombre de dimensions que l'enfant doit prendre en compte. Nous faisons également l'hypothèse suivante concernant la fabrication d'un jouet:
- La taille du jouet peut varier entre quelques centimètres et un mètre, par pas de dix centimètres: 0-10cm, 11-20cm, ..., 91cm-1m.
- Le poids du jouet peut varier de manière similaire jusqu’à 1 kilogramme, avec des pas de 100 grammes: 0-100g, 101-200g, ..., 901g-1kg.
Si nous voulons regrouper nos jouets maintenant, nous avons (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 grappes possibles.
Le garçon regrouperait les jouets comme suit:
- CLUSTER A) contient le ballon bleu car il est bleu et lourd
- CLUSTER B) contient le freesbe bleu parce que bleu et clair
- CLUSTER C) contient le super cube vert
En utilisant les 4 dimensions actuelles (forme, couleur, taille, poids), seules 3 grappes ne sont pas vides: dans ce cas, 897/900 ~ 99,7% de l'espace est vide.
Voici un exemple de ce que vous trouvez sur Wikipedia ( https://en.wikipedia.org/wiki/Curse_of_dimensionality ):
... lorsque la dimensionnalité augmente, le volume de l'espace augmente si rapidement que les données disponibles deviennent clairsemées.
Edit: Je ne suis pas sûr de pouvoir vraiment expliquer à un enfant pourquoi la distance va parfois mal dans des espaces de grandes dimensions, mais essayons de continuer avec notre exemple de l'enfant et de ses jouets.
Ne considérez que les 2 premières caractéristiques (couleur, forme), tout le monde s'accorde à dire que la balle bleue ressemble davantage au freesbe bleu qu'au cube vert.
Ajoutons maintenant 98 autres caractéristiques {par exemple: taille, poids, jour_de_production_de_le_toy, matière, douceur, jour_dans lequel le_toy_a été acheté, par prix, etc.}: eh bien, il serait de plus en plus difficile de juger quel jouet ressemblait à quel.
Alors:
- Un grand nombre de caractéristiques peut ne pas être pertinent dans une certaine comparaison de similarité, ce qui conduit à une corruption du rapport signal sur bruit.
- En grandes dimensions, tous les exemples "se ressemblent".
Si vous m'écoutez, un bon exposé est intitulé "Quelques informations utiles sur l'apprentissage automatique" ( http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf ), le paragraphe 6 en particulier présente cette genre de raisonnement.
J'espère que cela t'aides!