Computer Vision Toolbox
Diseñe y pruebe sistemas de procesamiento de vídeo, visión artificial y visión 3D
Computer Vision Toolbox™ proporciona algoritmos, funciones y apps para diseñar y probar sistemas de procesamiento de vídeo, visión artificial y visión 3D. Puede realizar detección y seguimiento de objetos, así como detección, extracción y coincidencia de características. En el caso de la visión 3D, la toolbox soporta la calibración de cámaras simples, estéreo y ojo de pez, la visión en estéreo, la reconstrucción 3D y el procesamiento de nubes de puntos de LiDAR y 3D. Las apps de visión artificial automatizan los flujos de trabajo de etiquetado de validación (ground-truth) y de calibración de cámaras.
Puede entrenar detectores de objetos personalizados mediante algoritmos de deep learning y machine learning tales como YOLO v2, Faster R-CNN y ACF. Para la segmentación semántica, se pueden usar algoritmos de deep learning tales como SegNet, U-Net y DeepLab. Los modelos previamente entrenados permiten detectar caras, peatones y otros objetos comunes.
Puede acelerar los algoritmos mediante su ejecución en procesadores multinúcleo y GPU. La mayoría de los algoritmos de esta toolbox soportan la generación de código C/C++ para su integración con el código existente, el prototipado en escritorio y el despliegue de sistemas de visión embebidos.
Comience:
Detección y reconocimiento de objetos
Marcos para entrenar, evaluar y desplegar detectores de objetos tales como YOLO v2, Faster R-CNN, ACF y Viola-Jones. Las prestaciones de reconocimiento de objetos incluyen OCR y bolsa de palabras visuales. Los modelos previamente entrenados detectan caras, peatones y otros objetos comunes.
Segmentación semántica
Segmente imágenes y volúmenes 3D mediante la clasificación de píxeles y vóxeles individuales con redes tales como SegNet, FCN, U-Net y DeepLab v3+.
Etiquetado de validación (ground-truth)
Automatice el etiquetado para detección de objetos, segmentación semántica y clasificación de escenas mediante las apps Video Labeler e Image Labeler.
Procesamiento de nubes de puntos 3D y de LiDAR
Realice segmentación, agrupación en cluster, reducción de la tasa de muestreo, eliminación de ruido, registro y ajuste de formas geométricas con datos de nubes de puntos 3D o de LiDAR. Lidar Toolbox™ ofrece funcionalidades adicionales para diseñar, analizar y probar sistemas de procesamiento de LiDAR.
E/S de nubes de puntos de LiDAR
Lea, escriba y visualice nubes de puntos a partir de archivos, LiDAR y sensores RGB-D.
Registro de nubes de puntos
Registre nubes de puntos 3D mediante los algoritmos NDT (transformada de distribuciones normales), ICP (punto más cercano iterativo) y CPD (movimiento de puntos coherente).
Segmentación y ajuste de formas
Segmente nubes de puntos en clusters y ajuste las formas geométricas a nubes de puntos. Segmente el plano de tierra de los datos de LiDAR para aplicaciones de conducción autónoma y robótica.
Calibración de una sola cámara
Automatice la detección del tablero de ajedrez y calibre las cámaras estenopeicas y ojo de pez mediante la app Camera Calibrator.
Calibración de cámaras estéreo
Calibre un par de cámaras estéreo para calcular la profundidad y reconstruir escenas 3D.
Visión 3D
Obtenga la estructura a partir del movimiento y la odometría visual.
Visión en estéreo
Estime la profundidad y reconstruya una escena 3D con un par de cámaras estéreo.
Detección, extracción y coincidencia de características
Detecte, encuentre coincidencias y extraiga características de interés tales como blobs, bordes y esquinas en diversas imágenes.
Registro de imágenes basado en características
Encuentre coincidencias entre características de varias imágenes para estimar la transformación geométrica entre imágenes y registrar la secuencia de imágenes.
Seguimiento de objetos
Realice un seguimiento de las trayectorias de los objetos de un cuadro a otro en secuencias de vídeo.
Estimación del movimiento
Estime el movimiento entre distintos cuadros de vídeo mediante flujo óptico, coincidencia de bloques y coincidencia de plantillas.
Generación de código
Genere C/C++, código CUDA y funciones MEX para funciones, clases, System objects y bloques de toolbox.
Mask-RCNN
Entrene redes Mask-RCNN para segmentar instancias con deep learning.
SLAM visual
Administre puntos de mundos 3D y correspondencias de proyección con puntos de imágenes 2D.
Estimación de posición de AprilTags
Detecte y estime la posición de AprilTags en una imagen
Registro de nubes de puntos
Registre nubes de puntos mediante correlación de fases para aplicaciones de SLAM.
Detección de cierre de lazos en nubes de puntos
Descriptor de características de nubes de puntos para la detección del cierre de lazos de SLAM.
Consulte las notas de la versión para obtener detalles sobre estas funcionalidades y las funciones correspondientes.