Analisi semantica latente: Definizione semplice, Metodo
Definizioni statistiche > Analisi semantica latente
Cos’è l’analisi semantica latente?
L’analisi semantica latente (LSA) è un modo per analizzare come parole e gruppi di parole vengono utilizzati nei testi. Viene utilizzato per rispondere a domande come:
- Qual è il significato sottostante del testo?
- Che effetto hanno le parole sul significato dei passaggi?
- In che modo il significato medio delle parole in un passaggio si relaziona con il significato generale di un passaggio?
La lingua (specialmente la lingua inglese) è complessa, in parte perché le parole hanno più significati. Ad esempio, la parola “caldo” può significare una varietà di cose tra cui “vicino a ebollizione”, “sexy” o “prezzo da vendere.”Molto dipende dal contesto in cui lo stai usando (cioè il passaggio circostante). “Hot” in un testo potrebbe avere un significato completamente diverso in un altro, quindi trovare parole correlate, passaggi o interi testi non è un compito facile. LSA tenta di farlo mappando parole a concetti come” temperatura”,” sesso “o” affari.”Le parole e i concetti collegati vengono poi confrontati per arrivare al vero significato del testo.
L’analisi semantica latente è anche chiamata indicizzazione semantica latente (LSI).
Metodo
Una matrice in cui ogni elemento mostra la frequenza con cui appaiono le parole in un testo.
LSA utilizza un metodo avanzato di algebra matriciale chiamato Singular Value Decomposition (SVD) per fattorizzare le matrici . SVD di solito non è pratico da eseguire a mano per qualcosa di più di un piccolo campione di testo. In realtà in realtà è diventato popolare solo dopo il 1980, quando i computer è venuto sulla scena per gestire gli algoritmi complessi.
Il metodo di base è:
- Il testo viene convertito in matrici per rappresentare i passaggi. Ogni cella nella matrice contiene il numero di volte in cui una determinata parola appare in un determinato passaggio.
- La matrice è fattorizzata in modo che ogni passaggio sia rappresentato come un vettore. Il valore per ogni vettore è la somma dei vettori che rappresentano le sue parole componenti.
- I prodotti dot, i coseni o metriche simili vengono utilizzati per rappresentare somiglianze tra parole e passaggi.
La teoria alla base degli algoritmi utilizzati in SVD è oltre lo scopo di questo articolo, ma puoi leggere di più su di esso in questo articolo dell’Università di Victoria.
Thomo, A. Analisi semantica latente (Tutorial). Estratto maggio 28, 2020 da: https://www.engr.uvic.ca/~seng474/svd.pdf
Stephanie Glen. “Analisi semantica latente: definizione semplice, metodo” Da StatisticsHowTo.com: Statistiche elementari per il resto di noi! https://www.statisticshowto.com/latent-semantic-analysis/
——————————————————————————
Hai bisogno di aiuto con un compito a casa o una domanda di prova? Con Chegg Studio, è possibile ottenere soluzioni passo-passo alle vostre domande da un esperto del settore. I tuoi primi 30 minuti con un tutor Chegg sono gratuiti!