Le détecteur à pixel unique classe les images à l’aide d’un réseau optique diffractif | Recherche et technologie


Un cadre de vision industrielle à pixel unique tire parti des réseaux optiques conçus pour l’apprentissage en profondeur pour contourner le besoin d’un réseau de capteurs d’image ou d’un processeur numérique. Le système, développé dans le laboratoire du professeur Aydogan Ozcan du chancelier de l’UCLA, ouvre la voie à la résolution de certains défis qui dépassent les capacités des technologies d’imagerie et d’apprentissage automatique actuelles.

La plupart des systèmes de vision industrielle utilisés aujourd’hui utilisent une caméra à objectif qui envoie des informations à un processeur numérique qui effectue des tâches d’apprentissage automatique. Même avec une technologie moderne et de pointe, ces systèmes souffrent de certains inconvénients; le flux vidéo, de par la nature du nombre élevé de pixels de la caméra, contient un grand volume de données, généralement avec des informations redondantes. Cela peut surcharger le processeur et créer des inefficacités en termes de puissance et de mémoire nécessaires pour gérer ces informations souvent redondantes.

Les chercheurs de l'UCLA ont créé un système de vision industrielle à pixel unique qui peut encoder les informations spatiales des objets dans le spectre de la lumière pour classer optiquement les objets d'entrée et reconstruire leurs images à l'aide d'un détecteur à pixel unique.  Gracieuseté d'Ozcan Lab, UCLA.


Les chercheurs de l’UCLA ont créé un système de vision industrielle à pixel unique qui peut encoder les informations spatiales des objets dans le spectre de la lumière pour classer optiquement les objets d’entrée et reconstruire leurs images à l’aide d’un détecteur à pixel unique. Gracieuseté d’Ozcan Lab, UCLA.


De plus, la fabrication de capteurs d’image à nombre de pixels élevé au-delà de la région visible présente certains défis qui limitent l’application des méthodes de vision industrielle standard à des longueurs d’onde plus longues, comme dans les régions infrarouge et térahertz.

«Ici, dans ce travail, nous avons contourné ces défis car nous pouvons classer les objets et reconstruire leurs images grâce à un détecteur à pixel unique en utilisant un réseau diffractif qui encode les caractéristiques spatiales des objets ou d’une scène dans le spectre de la lumière diffractée», a déclaré Ozcan Médias photoniques. L’équipe a déployé un apprentissage en profondeur pour concevoir des réseaux optiques créés à partir de surfaces diffractives successives afin d’effectuer des calculs et des inférences statistiques lorsque la lumière d’entrée passe à travers les couches fabriquées en 3D spécialement conçues. Contrairement aux caméras à objectif, ces réseaux optiques diffractifs sont conçus pour traiter la lumière entrante à des longueurs d’onde déterminées.

Le but est d’extraire puis de coder les caractéristiques spatiales d’un objet d’entrée sur le spectre de la lumière diffractée. Un détecteur à pixel unique est utilisé pour collecter cette lumière.

Différents types d’objets, ou classes de données, sont ensuite affectés à différentes longueurs d’onde. Un processus de classification entièrement optique automatisé classe les images d’entrée, en utilisant le spectre de sortie détecté par un seul pixel. Le processus surmonte le besoin d’un réseau de capteurs d’image ou d’un processeur numérique.

«Pendant la phase d’apprentissage de ce réseau diffractif, nous attribuons une longueur d’onde unique à chaque classe d’objets», a déclaré Ozcan.

Dans ce cas, les classes d’objets étaient des chiffres manuscrits; les chercheurs ont sélectionné 10 longueurs d’onde uniformément sur une bande passante disponible pour représenter les chiffres de 0 à 9.

En plus de la classification entièrement optique des types d’objets, l’équipe a également connecté le système à un réseau de neurones électronique simple et peu profond pour reconstruire rapidement les images des objets d’entrée classifiés, en se basant uniquement sur la puissance détectée à des longueurs d’onde distinctes, démontrant une tâche spécifique. décompression d’image.

«Les caractéristiques de diffraction sur les couches ont été ajustées de manière itérative (en utilisant des principes d’apprentissage en profondeur) jusqu’à ce que la structure physique des couches de diffraction converge vers des modèles qui produisent la plus grande puissance spectrale parmi ces 10 longueurs d’onde sélectionnées pour correspondre à la classe / chiffre de l’objet d’entrée, », A déclaré Ozcan à Photonics Media. « En d’autres termes, le réseau diffractif situé devant le pixel unique a appris à canaliser la plus grande puissance spectrale au niveau du détecteur de pixel unique en fonction de la classe de l’objet d’entrée (chiffre). »

Les chercheurs ont créé un système de vision industrielle à pixel unique qui peut encoder les informations spatiales des objets dans le spectre de la lumière pour classer optiquement les objets d'entrée et reconstruire leurs images à l'aide d'un détecteur à pixel unique en un seul instantané.  Gracieuseté d'Ozcan Lab, UCLA.


Les chercheurs ont créé un système de vision industrielle à pixel unique qui peut encoder les informations spatiales des objets dans le spectre de la lumière pour classer optiquement les objets d’entrée et reconstruire leurs images à l’aide d’un détecteur à pixel unique en un seul instantané. Gracieuseté d’Ozcan Lab, UCLA.


Lors de la formation continue du réseau neuronal, une erreur a été générée lorsque le réseau de diffraction a mal identifié, ou n’a pas pu identifier, le chiffre manuscrit d’entrée basé sur la puissance spectrale maximale au niveau du détecteur à pixel unique. Cette erreur a été utilisée pour ajuster les caractéristiques de diffraction sur les couches transmissives jusqu’à ce qu’elles montrent l’inférence correcte de la classe d’entrée basée sur la puissance spectrale détectée.

Malgré l’utilisation du détecteur à pixel unique, les chercheurs ont finalement obtenu une précision de classification optique supérieure à 96% des chiffres manuscrits. Une étude expérimentale de validation de principe avec des couches diffractives imprimées en 3D a montré un accord étroit avec les simulations numériques – démontrant l’efficacité du cadre de vision automatique à pixel unique pour la construction de systèmes d’apprentissage automatique à faible latence et économes en ressources.

Applications et convivialité



Le cadre fait suite à une recherche publiée plus tôt cette année dans laquelle Ozcan et ses collègues ont utilisé des surfaces diffractives pour façonner des impulsions térahertz. Le travail précédent, a-t-il dit, a démontré une tâche «déterministe», où la nouvelle avancée est mieux caractérisée comme la mise en œuvre de «l’inférence statistique», car la tâche de reconnaissance des chiffres manuscrits n’est pas une opération ou une fonction déterministe.

«Dans notre travail antérieur (mise en forme d’impulsions), nous savions exactement quel est le profil d’impulsion d’entrée et ce que nous voulons qu’il soit à l’emplacement de sortie (en d’autres termes, les entrées étaient connues)», a déclaré Ozcan. «Dans ce travail, nous avons démontré un classificateur d’objets à pixel unique où les objets d’entrée sont inconnus, de nouveaux chiffres manuscrits qui n’avaient jamais été vus par le réseau auparavant. En ce sens, notre classificateur diffractif à pixel unique a reconnu les caractéristiques spatiales des chiffres manuscrits, en utilisant la puissance spectrale détectée par un seul pixel. »

L’importance des deux axes de recherche s’étend au manque de capteurs d’image facilement disponibles et à nombre de pixels élevé dans les bandes infrarouges lointaines et moyennes et térahertz. À partir du cadre de vision industrielle, a déclaré Ozcan, il est concevable d’envisager un réseau de plan focal basé sur un réseau optique diffractif fonctionnant dans l’infrarouge qui peut être appliqué à des applications de défense et de sécurité pour détecter et imager certains objets cibles, et dans certains conditions.

D’autres utilisations couvrent des applications en imagerie biomédicale et en métrologie / interférométrie.

«Ce travail montre comment les caractéristiques spatiales d’une scène peuvent être codées dans le spectre, en un seul plan, et démontre qu’un réseau diffractif correctement formé peut effectuer ce codage pour obtenir une classification entièrement optique des objets d’entrée et la reconstruction de leurs images,» Ozcan a déclaré à Photonics Media. «Les principes de base de ce cadre de vision industrielle à pixel unique codé spectralement peuvent donc être appliqués à la construction de nouveaux systèmes d’imagerie 3D, en trouvant des utilisations, par exemple, dans la tomographie par cohérence optique (OCT).»

La recherche a été publiée dans Progrès scientifiques (www.doi.org/10.1126/sciadv.abd7690).

Laisser un commentaire