Qu'est-ce qu'un collecteur?

Dans les techniques de réduction de dimensionnalité telles que l'analyse en composantes principales, LDA, etc., le terme collecteur est souvent utilisé. Qu'est-ce qu'une variété en termes non techniques? Si un point $x$ appartient à une sphère dont je veux réduire la dimension, et s'il y a un bruit $y$ et et sont pas corrélés, alors les points réels seraient très éloignés les uns des autres à cause du bruit. Par conséquent, un filtrage du bruit serait nécessaire. Ainsi, la réduction de dimension serait effectuée sur . , Fait ici donc et appartiennent à différents collecteurs? $x$ $y$ $x$ $z = x+y$ $x$ $y$

Je travaille sur des données de nuages de points qui sont souvent utilisées en vision robotique; les nuages de points sont bruyants en raison du bruit lors de l'acquisition et je dois réduire le bruit avant la réduction de dimension. Sinon, j'obtiendrai une réduction de dimension incorrecte. Alors, quelle est la variété ici et le bruit fait-il partie de la même variété à laquelle appartient ? $x$

terminology manifold-learning

— Ria George
source

Il n'est pas vraiment possible d'utiliser le terme correctement sans être mathématiquement précis

— Chill2Macht

Réponses:

En termes non techniques, un collecteur est une structure géométrique continue ayant une dimension finie: une ligne, une courbe, un plan, une surface, une sphère, une boule, un cylindre, un tore, un "blob" ... quelque chose comme ça :

C'est un terme générique utilisé par les mathématiciens pour dire "une courbe" (dimension 1) ou "surface" (dimension 2), ou un objet 3D (dimension 3) ... pour toute dimension finie possible . Un manifold unidimensionnel est simplement une courbe (ligne, cercle ...). Un collecteur bidimensionnel est simplement une surface (plan, sphère, tore, cylindre ...). Un manifold tridimensionnel est un "objet complet" (boule, cube plein, l'espace 3D qui nous entoure ...). $n$

Une variété est souvent décrite par une équation: l'ensemble des points tels que est une variété unidimensionnelle (un cercle). $(x,y)$ $x^2+y^2=1$

Un collecteur a partout la même dimension. Par exemple, si vous ajoutez une ligne (dimension 1) à une sphère (dimension 2), la structure géométrique résultante n'est pas une variété.

Contrairement aux notions plus générales d'espace métrique ou d'espace topologique également destinées à décrire notre intuition naturelle d'un ensemble continu de points, une variété est censée être quelque chose de localement simple: comme un espace vectoriel de dimension finie: . Cela exclut les espaces abstraits (comme les espaces de dimension infinie) qui manquent souvent d'avoir une signification géométrique concrète. $\mathbb{R}^n$

Contrairement à un espace vectoriel, les variétés peuvent avoir différentes formes. Certaines variétés peuvent être facilement visualisées (sphère, boule ...), certaines sont difficiles à visualiser, comme la bouteille de Klein ou le véritable plan projectif .

Dans les statistiques, l'apprentissage automatique ou les mathématiques appliquées en général, le mot "collecteur" est souvent utilisé pour dire "comme un sous-espace linéaire" mais peut-être courbe. Chaque fois que vous écrivez une équation linéaire comme: vous obtenez un sous-espace linéaire (affine) (ici un plan). Habituellement, lorsque l'équation est non linéaire comme , c'est une variété (ici une sphère étirée). $3x+2y-4z=1$ $x^2+2y^2+3z^2=7$

Par exemple, "l' hypothèse du collecteur " de ML dit "les données de haute dimension sont des points dans un collecteur de basse dimension avec un bruit de dimension élevé ajouté". Vous pouvez imaginer les points d'un cercle 1D avec du bruit 2D ajouté. Bien que les points ne soient pas exactement sur le cercle, ils satisfont statistiquement à l'équation . Le cercle est la variété sous-jacente: $x^2+y^2=1$

— Benoit Sanchez
source

@RiaGeorge Dans l'image, c'est la surface qui est un collecteur. Il est continu car vous pouvez le déplacer librement sans interruption et ne jamais avoir à sauter de la surface pour vous déplacer entre deux endroits. Les trous auxquels vous faites allusion sont importants pour décrire comment vous pouvez vous déplacer sur la surface entre deux points de la manière la plus simple, et les compter est une technique importante pour étudier les variétés.

— Matthew Drury

Expliquer ce qu'est la topologie serait une question beaucoup trop large pour ce site, et un peu hors sujet. Je rechercherais dans l'échange de pile de mathématiques des informations à ce sujet. Les variétés et la topologie ne sont pas synonymes: les variétés sont des objets mathématiques étudiés avec les techniques de la topologie, la topologie est un sous-sujet des mathématiques.

— Matthew Drury

La réponse passe à côté de tous les points fondamentaux qui font qu'une telle variété, je ne comprends pas comment elle a autant de votes positifs. La topologie, les graphiques et la fluidité ne sont même pas mentionnés et la réponse donne essentiellement l'impression qu'un collecteur est une surface, ce qui n'est pas le cas .

— gented

Point technique, l'ensemble de solutions d'un système d'équations n'a pas besoin d'être une variété. C'est une variété, c'est donc principalement une variété, mais elle peut avoir des points d'auto-intersection où la propriété de la variété échoue.

— Matt Samuel

Votre définition de collecteur inclut l'exigence d'être de dimension finie . Mais vous incluez des exemples qui ne répondent pas à cette exigence, tels que des lignes, des plans, des courbes et des surfaces. Pourriez-vous préciser ce que vous vouliez dire?

— Mowzer

Une variété (topologique) est un espace qui est: $M$

(1) "localement" "équivalent" à pour certains . $\mathbb{R}^n$ $n$

"Localement", l '"équivalence" peut être exprimée via fonctions de coordonnées, , qui forment ensemble une fonction de "préservation de la structure", , appelée un diagramme . $n$ $c_i: M \to \mathbb{R}$ $c: M \to \mathbb{R}^n$

(2) peut être réalisé de manière "préservant la structure" en tant que sous-ensemble de pour certains . (1) (2) $\mathbb{R}^N$ $N \ge n$

A noter que pour rendre la "structure" précise ici, il faut comprendre les notions de base de la topologie ( def. ), Ce qui permet de faire des notions précises de comportement "local" , et donc "localement" ci-dessus. Quand je dis «équivalent», je veux dire une structure topologique équivalente ( homéomorphe ), et quand je dis «préservant la structure», je veux dire la même chose (crée une structure topologique équivalente).

Notez également que pour faire du calcul sur des variétés , il faut une condition supplémentaire qui ne découle pas des deux conditions ci-dessus, qui dit essentiellement quelque chose comme "les graphiques sont assez bien comportés pour nous permettre de faire du calcul". Ce sont les collecteurs les plus souvent utilisés en pratique. Contrairement aux variétés topologiques générales , en plus du calcul, elles permettent également des triangulations , ce qui est très important dans des applications comme la vôtre impliquant des données de nuages de points .

Notez que toutes les personnes n'utilisent pas la même définition pour une variété (topologique). Plusieurs auteurs la définiront comme ne satisfaisant qu'à la condition (1) ci-dessus, pas nécessairement aussi (2). Cependant, la définition qui satisfait à la fois (1) et (2) se comporte beaucoup mieux, donc plus utile pour les praticiens. On pourrait s'attendre intuitivement à ce que (1) implique (2), mais ce n'est pas le cas.

$\mathbb{R}^n$

— Chill2Macht
source

Merci de votre réponse: pouvez-vous expliquer ce qu'est une topologie en termes non techniques également? Le terme topologie et collecteur sont-ils utilisés de manière interchangeable? La dimension doit-elle être un nombre entier? Qu'est-ce que c'est un nombre réel, alors je pense que la structure est connue sous le nom de fractales si la structure entière est composée de chaque sous-partie est répétitive.

— Ria George

n

$n$

\geq 1

$\ge 1$

N

$N$ . Il pourrait y avoir une théorie plus avancée pour les dimensions fractionnaires / à valeur réelle, mais elle n'apparaît pas aussi souvent. "Topologie" et "variété" signifient deux choses très distinctes, donc ce ne sont pas des termes interchangeables. Un "manifold" a une "topologie". Le domaine de la topologie étudie les espaces qui ont des "topologies", qui sont des ensembles d'ensembles satisfaisant à trois règles / conditions. L'un des objectifs de l'étude des "topologies" est de décrire de manière cohérente et reproductible les notions de comportement "local".

— Chill2Macht

@RiaGeorge Les axiomes d'une "topologie" se trouvent sur la page Wikipedia: en.wikipedia.org/wiki/General_topology#A_topology_on_a_set - notez également que le lien que je vous ai donné pour la définition (équivalente) de "topologie" en termes du quartier a souligné quelque chose de connexe mais pas le même, j'ai modifié ma réponse pour refléter ceci: en.wikipedia.org/wiki/… Notez cependant que la définition en termes de quartiers est plus difficile à comprendre (j'imagine que je pourrais la comprendre bien, mais je ne me dérange pas trop, parce que je suis paresseux

— Chill2Macht

de toute façon, c'est mon opinion personnelle que vous n'avez pas besoin de connaître la définition de quartier de la topologie - sachez simplement que la définition plus simple vous donne tout le même pouvoir de la définition de quartier en termes de description rigoureuse du comportement local, car ils sont équivalent). Quoi qu'il en soit, si vous êtes intéressé par les fractales, vous trouverez peut-être ces pages Wikipédia intéressantes - je ne peux pas vous aider davantage, car je ne connais pas profondément la théorie et je ne connais pas ou ne comprend pas la plupart des définitions - Je n'ai entendu parler que de certaines

— Chill2Macht

C'est la seule réponse à ce jour qui prête attention à l'idée mathématique moderne d'assembler un objet global à partir de données locales. Malheureusement, il ne parvient pas tout à fait au niveau de simplicité et de clarté requis pour un compte "non technique".

— whuber

Dans ce contexte, le terme collecteur est précis, mais il est inutilement élevé en malutine. Techniquement, une variété est tout espace (ensemble de points avec une topologie) suffisamment lisse et continu (d'une manière qui peut, avec un certain effort, être rendu mathématiquement bien défini).

Imaginez l'espace de toutes les valeurs possibles de vos facteurs d'origine. Après une technique de réduction dimensionnelle, tous les points de cet espace ne sont pas atteignables. Au lieu de cela, seuls les points sur un sous-espace intégré à l'intérieur de cet espace seront réalisables. Ce sous-espace intégré correspond à la définition mathématique d'une variété. Pour une technique de réduction dimensionnelle linéaire comme l'ACP, ce sous-espace n'est qu'un sous-espace linéaire (par exemple un hyperplan), qui est une variété relativement triviale. Mais pour la technique de réduction dimensionnelle non linéaire, ce sous-espace pourrait être plus compliqué (par exemple une hyper-surface courbe). Aux fins de l'analyse des données, il est beaucoup plus important de comprendre qu'il s'agit de sous-espaces que toute inférence que vous tireriez en sachant qu'ils répondent à la définition de la variété.

— David Wright
source

"Highfalutin" ... a appris un nouveau mot aujourd'hui!

— Mehrdad

Mathématiquement, une variété est tout espace topologique localement continu. J'aime l'idée d'essayer d'expliquer les choses en langage simple, mais cette caractérisation ne fonctionne vraiment pas. Tout d'abord, la continuité est toujours une propriété locale, donc je ne sais pas ce que vous entendez par localement continu. De plus, votre définition ne permet pas d'exclure beaucoup de choses qui ne sont pas des variétés, comme la droite numérique rationnelle ou l'union de deux droites qui se croisent dans le plan euclidien.

— Ben Crowell

Je suis d'accord avec Ben, techniquement c'est "localement euclidien". Je ne suis pas sûr qu'il existe un bon moyen de résumer cela en anglais simple.

— Matthew Drury du

Je dois également être fortement d'accord avec les deux commentaires ci-dessus. En fait, la réponse que j'ai écrite ci-dessous était à l'origine censée être un commentaire clarifiant cette réponse qui est devenue trop longue. Il n'y a pas de notion précise d'espace topologique "continu" (voir ici: math.stackexchange.com/questions/1822769/… ). Définir des variétés en termes de concepts inexistants est, à mon avis, à long terme plus susceptible de prêter à confusion que de clarifier. À tout le moins, je suggérerais de remplacer le mot «mathématiquement» dans la première phrase par autre chose.

— Chill2Macht

Je vais utiliser ce commentaire comme une opportunité pour poser une petite question ... J'ai (pense) que j'ai eu l'idée des variétés, mais pourquoi est-ce "localement" nécessaire? Un espace «local» n'est-il pas continu… continu dans son ensemble?

— Paul92