Análisis Semántico Latente: Definición simple, Método
Definiciones estadísticas > Análisis Semántico Latente
¿Qué es el Análisis Semántico Latente?
El Análisis Semántico Latente (LSA) es una forma de analizar cómo se usan las palabras y los grupos de palabras en los textos. Se utiliza para responder preguntas como:
- ¿Cuál es el significado subyacente del texto?
- ¿Qué efecto tienen las palabras en el significado de los pasajes?
- ¿Cómo se relaciona el significado promedio de las palabras en un pasaje con el significado general de un pasaje?
El idioma (especialmente el inglés) es complejo, en parte porque las palabras tienen múltiples significados. Por ejemplo, la palabra «caliente «puede significar una variedad de cosas que incluyen» casi hirviendo»,» sexy «o» con precio de venta».»Mucho depende del contexto en el que lo estés usando (es decir, el pasaje circundante). «Caliente» en un texto puede tener un significado completamente diferente en otro, por lo que encontrar palabras relacionadas, pasajes o textos completos no es una tarea fácil. LSA intenta hacer esto asignando palabras a conceptos como» temperatura»,» sexo «o » negocios».»Las palabras y los conceptos vinculados se comparan para llegar al significado real del texto.
El análisis semántico latente también se denomina indexación semántica latente (LSI).
Método
Una matriz donde cada elemento se muestra cómo a menudo aparecen palabras en un texto.
LSA utiliza un método avanzado de álgebra de matrices llamado Descomposición de Valor Singular (SVD) para factorizar matrices . SVD suele ser poco práctico para realizar a mano para algo más que una pequeña muestra de texto. De hecho, solo se hizo popular después de la década de 1980, cuando las computadoras entraron en escena para manejar algoritmos complejos.
El método básico es:
- El texto se convierte en matrices para representar pasajes. Cada celda de la matriz contiene el número de veces que una palabra determinada aparece en un pasaje determinado.
- La matriz se factoriza para que cada pasaje se represente como un vector. El valor de cada vector es la suma de vectores que representan sus palabras componentes.
- Los productos punteados, cosenos o métricas similares se utilizan para representar similitudes entre palabras y pasajes.
La teoría detrás de los algoritmos utilizados en SVD está más allá del alcance de este artículo, pero puede leer más sobre él en este artículo de la Universidad de Victoria.
Thomo, A. Análisis Semántico Latente (Tutorial). Consultado el 28 de mayo de 2020 de: https://www.engr.uvic.ca/~seng474/svd.pdf
Stephanie Glen. «Análisis Semántico Latente: Definición Simple, Método» De StatisticsHowTo.com: ¡Estadísticas elementales para el resto de nosotros! https://www.statisticshowto.com/latent-semantic-analysis/
——————————————————————————
Necesito ayuda con una tarea o cuestión de prueba? Con Chegg Study, puede obtener soluciones paso a paso a sus preguntas de un experto en el campo. ¡Tus primeros 30 minutos con un tutor de Chegg son gratis!