banner
Maison / Nouvelles / Une application d'un algorithme de correspondance stéréo basé sur l'apprentissage par transfert sur des robots dans plusieurs scènes
Nouvelles

Une application d'un algorithme de correspondance stéréo basé sur l'apprentissage par transfert sur des robots dans plusieurs scènes

Jul 07, 2023Jul 07, 2023

Rapports scientifiques volume 13, Numéro d'article : 12739 (2023) Citer cet article

825 accès

4 Altmétrique

Détails des métriques

La technologie de vision robotique basée sur la vision binoculaire présente un énorme potentiel de développement dans divers domaines, notamment la reconstruction de scènes 3D, la détection de cibles et la conduite autonome. Cependant, les méthodes de vision binoculaire actuelles utilisées en ingénierie robotique présentent des limites telles que des coûts élevés, des algorithmes complexes et une faible fiabilité de la carte de disparité générée dans différentes scènes. Pour surmonter ces défis, un algorithme de correspondance stéréo inter-domaines pour la vision binoculaire basé sur l'apprentissage par transfert a été proposé dans cet article, nommé Cross-Domain Adaptation and Transfer Learning Network (Ct-Net), qui a montré des résultats précieux dans plusieurs scènes de robots. Tout d'abord, cet article présente un extracteur de fonctionnalités générales pour extraire des informations riches sur les fonctionnalités générales pour les tâches de correspondance stéréo adaptative de domaine. Ensuite, un adaptateur de fonctionnalités est utilisé pour adapter les fonctionnalités générales au réseau de correspondance stéréo. De plus, un module d'optimisation adaptative des coûts de domaine est conçu pour optimiser le coût correspondant. Un module de prédiction des scores de disparité a également été intégré pour ajuster de manière adaptative la plage de recherche de disparité et optimiser la répartition des coûts. Le cadre global a été formé à l’aide d’une stratégie par étapes et des expériences d’ablation ont été menées pour vérifier l’efficacité de la stratégie de formation. Par rapport au prototype PSMNet, sur le benchmark KITTI 2015, le 3PE-fg de Ct-Net dans toutes les régions et régions non occultées a diminué respectivement de 19,3 et 21,1 %, tandis que sur l'ensemble de données de Middlebury, l'algorithme proposé améliore le taux d'erreur d'échantillonnage. au moins 28,4 %, ce qui correspond à l'échantillon Staircase. Les résultats quantitatifs et qualitatifs obtenus à partir de Middlebury, Apollo et d'autres ensembles de données démontrent que Ct-Net améliore considérablement les performances inter-domaines de la correspondance stéréo. Des expériences de correspondance stéréo dans des scènes du monde réel ont montré qu'il peut efficacement résoudre des tâches visuelles dans plusieurs scènes.

Ces dernières années, les robots sont devenus des assistants incontournables dans divers domaines, notamment la reconstruction de scènes 3D, la détection de cibles, la conduite autonome, entre autres. L’application généralisée de la technologie robotique dans diverses industries a contribué à son rôle essentiel dans la vie moderne. La vision par ordinateur, une technologie qui émule le système visuel humain et convertit les informations d'image collectées en informations sur la disparité des cibles, joue un rôle crucial en aidant les robots à accomplir leurs tâches. Actuellement, la majorité des robots s’appuient sur un équipement radar laser coûteux pour obtenir des informations de disparité de haute précision. Cependant, le principe de la vision binoculaire, qui reproduit fidèlement la façon dont les humains observent les objets, est largement utilisé dans de nombreuses tâches visuelles. L'algorithme de correspondance stéréo binoculaire, un élément fondamental de la théorie de la vision binoculaire, a un impact direct sur la précision de la détection de la cible d'un robot. En utilisant la théorie de la vision binoculaire, le robot peut convertir des informations bidimensionnelles en informations tridimensionnelles de la scène cible, obtenant ainsi des informations précises sur la scène cible.

Les algorithmes de correspondance stéréo sont cruciaux pour comprendre les scènes 3D et la reconstruction, et ont été largement utilisés dans divers domaines, notamment la navigation robotisée1, la conduite autonome2, la réalité virtuelle3 et bien d’autres. Ces algorithmes visent à calculer les disparités, qui représentent le déplacement horizontal des pixels correspondants dans deux paires stéréo rectifiées. Les méthodes traditionnelles s'appuient souvent sur une connaissance préalable de l'image pour construire une fonction de correspondance stéréo permettant la génération d'une carte de disparité dense4.

Actuellement, les réseaux de neurones convolutifs (CNN) sont largement utilisés dans diverses tâches de vision en raison de leurs puissantes capacités de représentation de caractéristiques, notamment la détection d'objets5, la classification d'images6, etc. Ces dernières années, les algorithmes d’appariement stéréo supervisés basés sur CNN ont considérablement amélioré les performances de l’appariement stéréo et sont devenus l’orientation de recherche dominante actuelle. Les principales étapes de l'algorithme de correspondance stéréo supervisée basé sur CNN comprennent l'extraction de fonctionnalités, la construction des coûts et l'optimisation des coûts.

\) represents the inner product operation, and the correlation of features is calculated for the feature group g and all disparity levels d./p>