Existe-t-il des algorithmes de vision par ordinateur ciblant spécifiquement les images en profondeur?


9

J'ai cherché des algorithmes de détection de marqueurs à utiliser avec une application basée sur Kinect, et la majorité du travail que j'ai pu trouver est évidemment axée sur la détection de fonctionnalités dans des images `` normales ''.

Cependant, le matériel kinect fournit (essentiellement, une fois que vous avez ajusté) une valeur de profondeur de 11 bits par pixel.

Cette image de profondeur contient également divers artefacts visuels provenant des ombres projetées autour des bords des objets (voir par exemple la forte bordure noire dans cette vidéo http://www.youtube.com/watch?v=-q8rRk8Iqww&feature=related ).

Alors que certaines techniques traditionnelles de vision industrielle (par exemple la détection des bords) fonctionnent bien avec cela, d'autres non, et il semble qu'il y ait peu d'informations sur le net en discutant.

À titre d'exemple simple, l'utilisation de la valeur de profondeur rend trivial la détection de l'orientation d'un bloc marqueur une fois que vous l'avez localisé.

Alors, quelqu'un a-t-il vu des discussions / documents / etc. qui couvrent le traitement d'une image en profondeur pour la détection des fonctionnalités?

Quelqu'un peut-il recommander un bon algorithme pour détecter les marqueurs de "profondeur" (en fait des blocs d'origami au lieu de marqueurs noir et blanc imprimés)?

Ce que j'ai fait jusqu'à présent est une expérimentation adhoc utilisant l'opencv pour traiter les images, mais ce n'est pas assez stable ou assez rapide.

Si vous créez un lien vers un produit commercial de vision industrielle sans aucune sorte d'essai, veuillez indiquer dans votre réponse pourquoi vous pensez qu'il est approprié.


Il y a des tonnes d'articles et de programmes pour cela. Désolé, je ne peux pas répondre plus en détail, sur une faible bande passante. Voir l'application RGBDemo, elle comprend un identifiant d'objet. Également, PointCloud Library (PCL), ROS, OpenCV, pour les logiciels, et probablement Google Scholar pour les articles. Vous mentionnez que OpenCV ne vous satisfait pas, mais PCL et RGBDemo peuvent l'être.

Je ne cherche pas une implémentation d'une démo qui montre le kinect, ou des démos PC qui montrent comment générer un modèle 3D à partir d'un kinect ou d'une boîte à outils de traitement d'image (c.-à-d. Opencv). Je recherche des algorithmes de reconnaissance de fonctionnalités basés sur des images en profondeur.

RGBDemo implémente ces algorithmes. Lisez le code ou les références du code.

Réponses:


8

Mon descripteur de fonctionnalité 2.5D / 3D préféré pour l'enregistrement et la reconnaissance est l' image de rotation (papier original + plus de détails dans la thèse de doctorat et le logiciel disponibles auprès de la CMU).

D'autres avancées récentes (toutes consultables en ligne pour les algorithmes appropriés) incluent: 3D-Sift, Histogramme d'entités ponctuelles rapides, Entités radiales alignées normales (NARF), Descripteurs du noyau de profondeur. Les méthodes plus anciennes utilisaient simplement des propriétés de surface telles que la courbure et les bords pour identifier les taches de région.

Quel est le meilleur? Dépend de ce que vous voulez trouver, de l'invariance du point de vue, de l'encombrement supplémentaire, etc.


7

Vous avez tous les bons mots clés, je suis surpris que vous n'ayez vraiment trouvé aucun article connexe lors de la recherche de matériel.

Heureusement, j'ai accès à la bibliothèque numérique IEEE Xplore. Je n'ai besoin d'aucun de ces algorithmes particuliers auparavant, mais cela semble très intéressant, alors voici quelques résultats d'une recherche rapide qui pourraient être pertinents (ne les jugez pas par leurs titres, regardez leurs résumés):

Malheureusement, je ne pense pas que vous puissiez accéder gratuitement à ces documents, du moins pas via la bibliothèque IEEE Xplore. Si vous n'y avez pas accès, vous pouvez probablement vous débrouiller avec Google scholar , et il existe des bases de données papier gratuites (j'ai utilisé la base de données Mendeley lorsque je n'avais pas encore accès à l'IEEE). De plus, le simple fait de googler des parties du résumé ou des parties aléatoires du document donne parfois des résultats (vous pouvez tomber sur une version pré-publiée presque terminée de l'article).

Les requêtes de recherche je trouvais les documents mentionnés sont: l' image 3D , l' image en profondeur , kinect . Vous souhaiterez peut-être également lancer le traitement lors de la recherche des deux premières requêtes.

J'espère que cela aide certains! Je suis désolé de ne plus pouvoir entrer dans le sujet, cela semble vraiment intéressant.



@mankoff juste du résumé, je vois juste le travail se concentrer sur le suivi, et il semble qu'il se concentre sur l'utilisation des informations directes avec peu de détection de fonctionnalités. Mais alors, je viens de lire le résumé, donc pas sûr.

La recherche sur les titres des articles suffit pour trouver des fichiers PDF pour plusieurs de ces articles. Une autre bonne source est CiteSeer: citeseerx.ist.psu.edu/index Merci pour la liste des articles!
Rethunk
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.