Il apparaît rapidement, en examinant de nombreux récits de la «supposition multiple», que de nombreux auteurs sont particulièrement bâclés quant à sa signification. Les plus prudents le définissent avec une mise en garde subtile mais extrêmement importante : que les données se trouvent sur ou à proximité d' un collecteur de faible dimension.
Même ceux qui n'incluent pas la clause "ou proche de" adoptent clairement l'hypothèse du collecteur comme une fiction approximative, pratique pour effectuer une analyse mathématique, car leurs applications doivent envisager des écarts entre les données et le collecteur estimé. En effet, de nombreux auteurs introduisent plus tard un mécanisme explicite pour les écarts, comme envisager la régression de contre où est contraint de se trouver sur une variété mais le peut inclure déviations aléatoires. Cela revient à supposer que les tuples sont prochesyxxMk⊂Rd y(xi,yi)à, mais pas nécessairement sur, une variété dimensionnelle immergée de la formek
(x,f(x))∈Mk×R⊂Rd×R≈Rd+1
pour une fonction lisse (de régression) . Puisque nous pouvons voir tous les points perturbés , qui sont simplement proches du graphique de (une variété dimensionnelle), comme couchés sur la variété , cela explique pourquoi une telle négligence à distinguer "on" de "proche de" peut être sans importance en théorie.f:Rd→R(x,y)=(x,f(x)+ε)fkk+1Mk×R
La différence entre "activé" et "proche de" est extrêmement importante pour les applications. "Près de" permet que les données puissent s'écarter du collecteur. En tant que tel, si vous choisissez d'estimer ce collecteur, la quantité typique d'écart entre les données et le collecteur peut être quantifiée. Un collecteur monté sera meilleur qu'un autre lorsque la quantité typique de déviation est moindre, ceteris paribus.
La figure montre deux versions de l'hypothèse du collecteur pour les données (gros points bleus): le collecteur noir est relativement simple (ne nécessitant que quatre paramètres pour décrire) mais ne se rapproche que des données, tandis que le collecteur en pointillé rouge correspond aux données parfaitement mais est compliqué (17 paramètres sont nécessaires).
Comme dans tous ces problèmes, il y a un compromis entre la complexité de la description de la variété et la qualité de l'ajustement (le problème de sur-ajustement). Il est toujours possible de trouver un collecteur unidimensionnel qui s'adapte parfaitement à toute quantité finie de données dans (comme avec le collecteur en pointillés rouges sur la figure, exécutez simplement une courbe lisse à travers tous les points , dans n'importe quel ordre: presque sûrement, il ne se coupera pas, mais s'il le fait, perturbera la courbe au voisinage d'une telle intersection pour l'éliminer). À l'autre extrême, si seule une classe limitée de variétés est autorisée (comme les hyperplans euclidiens droits uniquement), un bon ajustement peut être impossible, quelles que soient les dimensions, et l'écart typique entre les données et l'ajustement peut être important.Rd
Cela conduit à une manière simple et pratique d'évaluer l'hypothèse multiple: si le modèle / prédicteur / classificateur développé à partir de l'hypothèse multiple fonctionne bien, alors l'hypothèse était justifiée. Ainsi, les conditions appropriées recherchées dans la question seront qu'une certaine mesure appropriée de la qualité de l'ajustement soit suffisamment petite. (Quelle mesure? Cela dépend du problème et revient à sélectionner une fonction de perte.)
Il est possible que des variétés de dimensions différentes (avec différents types de contraintes sur leur courbure) puissent également s'adapter aux données - et prédire les données bloquées -. Rien ne peut être «prouvé» sur la variété «sous-jacente» en général, en particulier lorsque vous travaillez avec de grands ensembles de données humains désordonnés. Tout ce que nous pouvons généralement espérer, c'est que le collecteur monté soit un bon modèle.
Si vous ne trouvez pas un bon modèle / prédicteur / classificateur, alors soit l'hypothèse du collecteur n'est pas valide, vous supposez des collecteurs de trop petite dimension, soit vous n'avez pas regardé assez fort ou assez bien.