Productos y servicios

IA lista para usar en voz y audio

Procese y analice señales de voz y audio con IA previamente entrenada

Audio Toolbox y Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries permiten tareas avanzadas de procesamiento y análisis de señales de voz y audio con modelos de IA previamente entrenados.

Con llamadas a funciones individuales y sin experiencia en Deep Learning, puede:

  • Transcribir voz con reconocimiento automático de voz (ASR) empleando cadenas de tareas de voz a texto (STT)
  • Sintetizar voz utilizando cadenas de tareas de texto a voz (TTS)
  • Detectar voz con detección de actividad de voz (VAD), identificar idiomas hablados y clasificar sonidos
  • Registrar e identificar a hablantes con modelos de reconocimiento de locutores basados en Deep Learning y cadenas de tareas de Machine Learning
  • Separar fuentes de voz en un problema de fiesta de cóctel, y mejorar y eliminar ruido de señales de voz
  • Estimar altura musical y extraer embeddings de señales de voz, audio y música

Las funciones utilizan modelos de Machine Learning y Deep Learning previamente entrenados, y se ejecutan utilizando una combinación de MATLAB, Python® y PyTorch®.

Pictograma que representa el uso de una red dentro de auriculares que pueden traducir entre voz y texto.

Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries

Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries permite utilizar un conjunto de modelos de IA previamente entrenados con funciones de Audio Toolbox para procesamiento y análisis de señales.

Esta interfaz automatiza la instalación de Python y PyTorch, y descarga modelos de Deep Learning seleccionados a partir de las librerías SpeechBrain y Torchaudio. Una vez instalada, ejecuta las siguientes funciones a través de modelos de IA locales subyacentes:

  • speech2text acepta un objeto speechClient con el modelo establecido como emformer o whisper, además del modelo local wav2vec y las opciones de servicio en la nube de Google, IBM, Microsoft y Amazon. Para utilizar whisper también se requiere descargar los pesos del modelo por separado, como se explica en Descarga del modelo de voz a texto de whisper.
  • text2speech acepta un objeto speechClient con el modelo establecido como hifigan, además de las opciones de servicio en la nube de Google, IBM, Microsoft y Amazon.

Las funciones speech2text y text2speech aceptan y devuelven cadenas de texto y muestras de audio. Estas funciones no necesitan que codifique preprocesamiento de señales, extracción de características, predicción de modelos y posprocesamiento de salida.

Objeto cliente de voz con lista de opciones del modelo.
Codifique utilizando la función speech2text con un objeto speechClient no predeterminado para el modelo whisper en modo de traducción.

Traducción y transcripción del habla multilingüe con whisper

Codifique utilizando la función text2speech para generar voz sintética a partir de texto.

Síntesis de voz a partir de texto utilizando un modelo local

App Signal Labeler con señal de voz etiquetada y superposición de formas de onda que identifica el habla junto con su transcripción.

Etiquetado de señales de voz utilizando voz a texto con Signal Labeler

IA lista para usar en voz y audio con funciones adicionales

Audio Toolbox incluye las funciones adicionales classifySound, separateSpeakers, enhanceSpeech, detectspeechnn, pitchnn y identifyLanguage. Estas funciones permiten utilizar modelos avanzados de Deep Learning para procesar y analizar señales de audio sin tener experiencia en IA. Estos modelos no requieren Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries.

Gráfica de señal sonora con segmentos etiquetados, y donde se observan clases de sonidos específicas.

Clasificación de sonidos con classifySound

Cuatro gráficas: mezcla de audio original, dos componentes de habla separados y señal residual con amplitud insignificante.

Separación de fuentes de voz con separateSpeakers

Cuadrícula de gráficas de dos por dos que muestra dos señales diferentes y espectrogramas de tiempo-frecuencia, donde se observan las diferencias entre la señal original y su versión mejorada.

Mejora de voz con enhanceSpeech

Uso de MATLAB con PyTorch para desarrollo de modelos de Deep Learning

Si trabaja con MATLAB y PyTorch, y tiene experiencia en Deep Learning, puede utilizar ambos lenguajes conjuntamente para desarrollar y entrenar modelos de IA, flujos de trabajo de coejecución e intercambio de modelos.

Más información: