Stemming

Introducción al stemming

Stemming es una técnica de normalización de texto en el procesamiento del lenguaje natural que reduce las palabras a su raíz. La técnica de stemming elimina los afijos de las palabras, lo que puede generar palabras no válidas. Por ejemplo, luego de aplicar stemming, las palabras “pensando”, “pensado” y “pensamiento” se reducirán a “pensa”.

Por lo general, stemming se emplea en:

  • Búsqueda de información, donde las palabras reducidas a su raíz se utilizan como sinónimos para ampliar los criterios de búsqueda
  • Aplicaciones de ingeniería para reducir la dimensionalidad, donde stemming ayuda a reducir la cantidad de palabras que se rastrearán y utilizarán en modelos con algoritmos de Machine Learning

El algoritmo de Porter es uno de los métodos de stemming más frecuentes para el idioma inglés y se basa en reglas heurísticas simples. Este método es rápido, pero no siempre preciso. Se han propuesto muchos otros algoritmos de stemming, pero el de Porter se sigue utilizando con frecuencia debido a su velocidad y sencillez.

Otro método relacionado con stemming, pero más sofisticado, es la lematización. En comparación con stemming, la lematización:

  • Utiliza vocabulario y análisis morfológico, mientras que stemming utiliza reglas heurísticas simples
  • Devuelve palabras con el formato en que aparecen en el diccionario, mientras que stemming puede devolver palabras no válidas

Las diferencias entre lematización y stemming se indican a continuación.

Palabra Lematización Stemming
Pensando Pensar Pensa
Pensado Pensar Pensa
Pensamiento Pensamiento Pensa

Para obtener más información sobre stemming y cómo crear modelos con datos de texto, consulte Text Analytics Toolbox™.

También puede consultar estos temas: procesamiento del lenguaje natural, análisis de sentimiento, word2vec, n-grama, minería de textos con MATLAB, Data Science, Deep Learning, Deep Learning Toolbox™, Statistics and Machine Learning Toolbox™