Introducción a los n-gramas
Un n-grama es un conjunto de n elementos consecutivos en un documento de texto, que puede incluir palabras, números, símbolos y puntuación. Los modelos de n-gramas son útiles en muchas aplicaciones de análisis de texto en que la secuencia de palabras es pertinente, tales como análisis de sentimiento, clasificación de texto y generación de texto. El modelado de n-gramas es una de las técnicas utilizadas para convertir texto de un formato no estructurado a un formato estructurado. Una alternativa al n-grama es el uso de técnicas de word embedding, como word2vec.
Ejemplo
Se puede crear un modelo lingüístico que incorpore n-gramas contando la cantidad de veces que cada n-grama único aparece en un documento. Esto se conoce como modelo de bolsa de n-gramas. En MATLAB, se puede crear un modelo de bolsa de n-gramas utilizando una función “bagOfNgrams”
Una vez creado, el modelo lingüístico se puede utilizar con algoritmos de Machine Learning para crear modelos predictivos para aplicaciones de análisis textual. Para obtener más información sobre los n-gramas y la creación de modelos con datos textuales, consulte Text Analytics Toolbox™ con MATLAB®.
Ejemplos y procedimientos
Referencias de software
También puede consultar estos temas: procesamiento de lenguaje natural, análisis de sentimiento, word2vec, minería de textos con MATLAB, Data Science, Deep Learning, Deep Learning Toolbox™, Predictive Maintenance Toolbox™