Análise semântica latente: definição simples, método
Statistics Definitions > Latent Semantic Analysis
What is Latent Semantic Analysis?
análise semântica latente (LSA) é uma forma de analisar como palavras e grupos de palavras são usados em textos. É usado para responder perguntas como:
- Qual é o significado subjacente do texto?que efeito as palavras têm no significado das passagens?como é que o significado médio das palavras numa passagem se relaciona com o significado geral de uma passagem?
a língua (especialmente a língua inglesa) é complexa, em parte porque as palavras têm múltiplos significados. Por exemplo, a palavra “quente” pode significar uma variedade de coisas, incluindo “perto de ebulição”, “sexy” ou “preço de venda”.”Muito depende do contexto em que o está a usar (ou seja, a passagem circundante). “Quente” em um texto pode ter um significado completamente diferente em outro, então encontrar palavras relacionadas, passagens, ou textos inteiros não é tarefa fácil. A LSA tenta fazer isso mapeando palavras para conceitos como “temperatura”, “sexo” ou “negócio”.”As palavras e os conceitos associados são então comparados para chegar ao significado real do texto.
a análise semântica latente também é chamada de indexação semântica latente (LSI).
Método
Uma matriz onde cada elemento mostra como, muitas vezes, as palavras aparecem em um texto.
LSA usa um método avançado de álgebra matricial chamado de decomposição do valor Singular (SVD) para factorizar matrizes . SVD é geralmente impraticável para executar manualmente para qualquer coisa mais do que uma pequena amostra de texto. Na verdade, ele realmente só se tornou popular após a década de 1980, quando os computadores vieram em cena para lidar com os algoritmos complexos.
O método básico é:
- o texto é convertido em matrizes para representar passagens. Cada célula na matriz contém o número de vezes que uma determinada palavra aparece em uma determinada passagem.
- a matriz é factorizada de modo que cada passagem é representada como um vetor. O valor para cada vetor é a soma de vetores representando suas palavras componentes.
- Dot products, cosines or similar metrics are used to represent similarities between words and passages.
a teoria por trás dos algoritmos usados em SVD está além do escopo deste artigo, mas você pode ler mais sobre ele neste artigo da Universidade de Victoria.
Thomo, A. Latent Semantic Analysis (Tutorial). Retrieved May 28, 2020 from: https://www.engr.uvic.ca/~seng474/svd.pdf
Stephanie Glen. “Latent Semantic Analysis: Simple Definition, Method” From StatisticsHowTo.com: Elementary Statistics for the rest of us! https://www.statisticshowto.com/latent-semantic-analysis/
——————————————————————————
Necessita de ajuda com a lição de casa, ou a pergunta de teste? Com o estudo Chegg, você pode obter soluções passo a passo para suas perguntas de um especialista no campo. Os seus primeiros 30 minutos com um tutor Chegg são grátis!