Audio Toolbox y Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries permiten tareas avanzadas de procesamiento y análisis de señales de voz y audio con modelos de IA previamente entrenados.
Con llamadas a funciones individuales y sin experiencia en Deep Learning, puede:
- Transcribir voz con reconocimiento automático de voz (ASR) empleando cadenas de tareas de voz a texto (STT)
- Sintetizar voz utilizando cadenas de tareas de texto a voz (TTS)
- Detectar voz con detección de actividad de voz (VAD), identificar idiomas hablados y clasificar sonidos
- Registrar e identificar a hablantes con modelos de reconocimiento de locutores basados en Deep Learning y cadenas de tareas de Machine Learning
- Separar fuentes de voz en un problema de fiesta de cóctel, y mejorar y eliminar ruido de señales de voz
- Estimar altura musical y extraer embeddings de señales de voz, audio y música
Las funciones utilizan modelos de Machine Learning y Deep Learning previamente entrenados, y se ejecutan utilizando una combinación de MATLAB, Python® y PyTorch®.
Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries
Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries permite utilizar un conjunto de modelos de IA previamente entrenados con funciones de Audio Toolbox para procesamiento y análisis de señales.
Esta interfaz automatiza la instalación de Python y PyTorch, y descarga modelos de Deep Learning seleccionados a partir de las librerías SpeechBrain y Torchaudio. Una vez instalada, ejecuta las siguientes funciones a través de modelos de IA locales subyacentes:
speech2textacepta un objetospeechClientcon el modelo establecido comoemformerowhisper, además del modelo localwav2vecy las opciones de servicio en la nube deGoogle,IBM,MicrosoftyAmazon. Para utilizarwhispertambién se requiere descargar los pesos del modelo por separado, como se explica en Descarga del modelo de voz a texto de whisper.text2speechacepta un objetospeechClientcon el modelo establecido comohifigan, además de las opciones de servicio en la nube deGoogle,IBM,MicrosoftyAmazon.
Las funciones speech2text y text2speech aceptan y devuelven cadenas de texto y muestras de audio. Estas funciones no necesitan que codifique preprocesamiento de señales, extracción de características, predicción de modelos y posprocesamiento de salida.
IA lista para usar en voz y audio con funciones adicionales
Audio Toolbox incluye las funciones adicionales classifySound, separateSpeakers, enhanceSpeech, detectspeechnn, pitchnn y identifyLanguage. Estas funciones permiten utilizar modelos avanzados de Deep Learning para procesar y analizar señales de audio sin tener experiencia en IA. Estos modelos no requieren Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries.
Uso de MATLAB con PyTorch para desarrollo de modelos de Deep Learning
Si trabaja con MATLAB y PyTorch, y tiene experiencia en Deep Learning, puede utilizar ambos lenguajes conjuntamente para desarrollar y entrenar modelos de IA, flujos de trabajo de coejecución e intercambio de modelos.
Más información: