Articles

Latent semantisk analys: enkel Definition, metod

Dela på

statistik definitioner > Latent semantisk analys

Vad är Latent semantisk analys?

Latent semantisk analys (LSA) är ett sätt att analysera hur ord och grupper av ord används i texter. Det används för att svara på frågor som:

  • Vad är den underliggande betydelsen av texten?
  • vilken effekt har ord på betydelsen av passager?
  • hur relaterar den genomsnittliga betydelsen av ord i en passage till den övergripande betydelsen av en passage?

språk (särskilt det engelska språket) är komplext, delvis för att ord har flera betydelser. Till exempel, ordet ”hot” kan betyda en mängd olika saker, inklusive ”nära kokning,” ”sexig,” eller ”prissatta att sälja.”Mycket beror på det sammanhang du använder det i (dvs. den omgivande passagen). ”Hot” i en text kan ha en helt annan betydelse i en annan, så att hitta relaterade ord, passager eller hela texter är ingen lätt uppgift. LSA försöker göra detta genom att kartlägga ord till begrepp som ”temperatur,” ”sex,” eller ”företag.”Orden och de länkade begreppen jämförs sedan för att komma fram till den verkliga betydelsen av text.

Latent semantisk analys kallas också latent semantisk indexering (LSI).


metod

latent semantisk analys

en matris där varje element visar hur ofta ord visas i en text.

LSA använder en avancerad matrisalgebrametod som kallas Singular Value Decomposition (SVD) för att faktorisera matriser . SVD är oftast opraktiskt att utföra för hand för något mer än ett litet urval av text. Faktum är att det egentligen bara blev populärt efter 1980-talet när datorer kom på scenen för att hantera de komplexa algoritmerna.
den grundläggande metoden är:

  • texten konverteras till matriser för att representera passager. Varje cell i matrisen innehåller antalet gånger ett visst ord visas i en viss passage.
  • matrisen faktoriseras så att varje passage representeras som en vektor. Värdet för varje vektor är summan av vektorer som representerar dess komponentord.
  • punktprodukter, cosinus eller liknande mätvärden används för att representera likheter mellan ord och passager.

teorin bakom algoritmerna som används i SVD ligger utanför ramen för denna artikel, men du kan läsa mer om det i denna University of Victoria-artikel.


Thomo, A. Latent semantisk analys (handledning). Hämtad 28 maj 2020 från: https://www.engr.uvic.ca/~seng474/svd.pdf

citera detta som:
Stephanie Glen. ”Latent semantisk analys: enkel Definition, metod” från StatisticsHowTo.com: grundläggande statistik för resten av oss! https://www.statisticshowto.com/latent-semantic-analysis/

——————————————————————————

behöver du hjälp med en läxa eller testfråga? Med Chegg Study kan du få steg-för-steg-lösningar på dina frågor från en expert på området. Dina första 30 minuter med en Chegg-handledare är gratis!