Text Analytics Toolbox

Análisis y modelización de datos textuales

 

Text Analytics Toolbox™ proporciona algoritmos y visualizaciones para preprocesar, analizar y modelizar datos textuales. Los modelos creados con esta toolbox se pueden emplear en aplicaciones tales como análisis de sentimiento, mantenimiento predictivo y modelización de temas.

Text Analytics Toolbox incluye herramientas para procesar texto de orígenes tales como registros de equipos, fuentes de noticias, encuestas, informes de operadores y redes sociales. Es posible extraer texto de formatos de archivo habituales, preprocesar el texto sin procesar, extraer palabras concretas, convertir texto en representaciones numéricas y crear modelos estadísticos.

Mediante técnicas de machine learning tales como LSA, LDA y word embedding quitar todo lo de dentro del paréntesis, es posible localizar clusters y crear características a partir de conjuntos de datos textuales multidimensionales. Las características creadas con Text Analytics Toolbox se pueden combinar con sustituir funciones por características de otros orígenes de datos a fin de crear modelos de machine learning que utilicen datos textuales, numéricos y de otros tipos.

 

Importación y visualización de datos textuales

Extraiga datos textuales de orígenes tales como redes sociales, fuentes de noticias, registros de equipos, informes y encuestas.

Extracción de datos textuales

Importe datos textuales a MATLAB® desde archivos individuales o grandes conjuntos de archivos, incluidos archivos PDF, HTML, de Microsoft® Word® y de Microsoft® Excel®.

Extracción de texto de un conjunto de documentos de Microsoft Word.

Visualización de texto

Explore visualmente conjuntos de datos textuales mediante nubes de palabras y gráficos de dispersión de texto.

Gráfico de dispersión de texto que muestra la frecuencia relativa de las palabras por medio del tamaño y el color de la fuente.

Compatibilidad con idiomas

Text Analytics Toolbox proporciona capacidades de preprocesamiento específicas para los idiomas inglés y japonés. La mayoría de las funciones se pueden usar también con texto en otros idiomas.

Importación, preparación y análisis de texto en japonés.

Preprocesamiento de datos textuales

Extraiga palabras significativas del texto sin procesar.

Limpieza de datos textuales

Aplique funciones de filtrado de alto nivel para eliminar contenido no pertinente, como por ejemplo direcciones URL, etiquetas HTML y puntuación.

Simplificación de texto sin procesar (izquierda) para trabajar con las palabras más significativas (derecha).

Filtrado de palabras reservadas y normalización de palabras según su raíz

Priorice los datos textuales significativos en su análisis gracias al filtrado de palabras comunes, palabras que aparecen con mucha o poca frecuencia y palabras muy largas o muy cortas. Reduzca el vocabulario y céntrese en el sentido o el sentimiento generales de un documento mediante la conversión de palabras a su lexema o lematizándolas según su formato de diccionario.

Eliminación de palabras reservadas como “a” y “of” de los documentos.

Identificación de tokens, oraciones y categorías gramaticales

Divida automáticamente el texto sin procesar en una serie de palabras mediante un algoritmo de tokenización. Agregue límites de oraciones, detalles de categorías gramaticales y otra información relevante sustituir como por para el contexto.

Gráficos financieros e indicadores técnicos.

Conversión de texto a formatos numéricos

Convierta datos textuales a formato numérico para su uso con machine learning y deep learning.

Recuento de palabras y n-gramas

Calcule estadísticas sobre la frecuencia de las palabras para representar datos textuales de forma numérica.

Identificación y visualización de las palabras más frecuentes en un modelo.

Word embedding y codificación

Entrene modelos de word embedding tales como modelos word2vec de bolsa de palabras continua (CBOW) y modelos skip-gram. Importe modelos previamente entrenados, incluidos fastText y GloVe.

Visualización de clusters en un gráfico de dispersión de texto mediante word embedding. 

Machine learning con datos textuales

Lleve a cabo modelización de temas, clasificación y reducción de dimensionalidad con algoritmos de machine learning tales como Asignación de Dirichlet latente (LDA) y Análisis semántico latente (LSA).

Modelización de temas

Descubra y visualice los patrones, las tendencias y las relaciones complejas subyacentes en grandes conjuntos de datos textuales.

Identificación de temas en datos de informes sobre tormentas.

Deep learning con datos textuales

Lleve a cabo análisis de sentimiento y clasificación con redes de deep learning tales como las redes de memoria a corto-largo plazo (LSTM).

Análisis de sentimiento

Identifique las posturas y opiniones expresadas en datos textuales a fin de categorizar las afirmaciones como positivas, neutrales o negativas. Cree modelos que permiten predecir el sentimiento en tiempo real.

Identificación de palabras que predicen un sentimiento positivo y negativo. 

Entrenamiento de una red neuronal profunda para la clasificación de datos textuales.

Generación de texto con Orgullo y prejuicio de Jane Austen y una red LSTM de deep learning. 

Funcionalidades más recientes

Análisis de sentimiento

evaluación de sentimiento en datos textuales mediante algoritmos de puntuación de sentimiento, incluido VADER.

Soporte para el idioma coreano

analítica de textos en idioma coreano que incluye tokenización, lematización, etiquetado de categorías gramaticales y reconocimiento de entidades con nombre.

Tokenización en japonés y coreano

personalización de las opciones de tokenización, incluidos los diccionarios de usuario y de MeCab.

Deep learning

inicialización de capas de word embedding con word embedding previamente entrenado.

Consulte las notas de la versión para obtener detalles sobre estas características y las funciones correspondientes.

Análisis de sentimiento con deep learning

Analice el sentimiento de datos de Twitter en vivo para entender cómo se percibe un término dado.

¿Tiene preguntas?

Póngase en contacto con Sohini Sarkar, experta técnica en Text Analytics Toolbox.

Consiga una prueba gratuita

30 días de exploración a su alcance.

Descargar ahora

¿Listo para comprar?

Solicitar precio y explore los productos relacionados.

¿Eres estudiante?

Obtenga el software para estudiantes de MATLAB y Simulink.

Más información