Latente semantische analyse: eenvoudige definitie, methode
statistische definities > latente semantische analyse
Wat is latente semantische analyse?
latente semantische analyse (LSA) is een manier om te analyseren hoe woorden en groepen woorden worden gebruikt in teksten. Het wordt gebruikt om vragen te beantwoorden als:
- Wat is de onderliggende betekenis van de tekst?
- welk effect hebben woorden op de Betekenis van passages?
- Hoe verhoudt de gemiddelde betekenis van woorden in een passage zich tot de algemene betekenis van een passage?
taal (vooral de Engelse taal) is complex, deels omdat woorden meerdere betekenissen hebben. Bijvoorbeeld, het woord “heet” kan betekenen een verscheidenheid van dingen, waaronder “in de buurt van koken,” “sexy,” of “geprijsd om te verkopen.”Veel hangt af van de context waarin je het gebruikt (dat wil zeggen de omringende passage). “Hot” in de ene tekst kan een heel andere betekenis hebben in een andere, dus het vinden van verwante woorden, passages, of hele teksten is geen gemakkelijke taak. LSA probeert dit te doen door woorden in kaart te brengen met concepten als “temperatuur”, “seks” of “business.”De woorden en de gekoppelde begrippen worden dan vergeleken met de werkelijke betekenis van de tekst.
latente semantische analyse wordt ook latente semantische indexering (LSI) genoemd.
methode
een matrix waarin elk element aangeeft hoe vaak woorden in een tekst voorkomen.
LSA maakt gebruik van een geavanceerde matrixalgebra methode genaamd Singular Value Decomposition (SVD) om matrices te ontbinden . SVD is meestal onpraktisch om met de hand uit te voeren voor iets meer dan een klein voorbeeld van tekst. In feite werd het pas populair na de jaren 1980 toen computers op het toneel kwamen om de complexe algoritmen te verwerken.
de basismethode is:
- De tekst wordt omgezet in matrices om passages weer te geven. Elke cel in de matrix bevat het aantal keren dat een bepaald woord verschijnt in een bepaalde passage.
- de matrix wordt zo gefactoriseerd dat elke passage wordt weergegeven als een vector. De waarde voor elke vector is de som van de vectoren die de samenstellende woorden vertegenwoordigen.
- Dot producten, cosines of soortgelijke metrics worden gebruikt om overeenkomsten tussen woorden en passages weer te geven.
De theorie achter de algoritmen die in SVD worden gebruikt valt buiten het bereik van dit artikel, maar u kunt er meer over lezen in dit artikel van de Universiteit van Victoria.
Thomo, A. latente semantische analyse (Tutorial). Geraadpleegd op 28 mei 2020 vanaf: https://www.engr.uvic.ca/~seng474/svd.pdf
Stephanie Glen. “Latente semantische analyse: eenvoudige definitie, methode” van StatisticsHowTo.com: elementaire statistieken voor de rest van ons! https://www.statisticshowto.com/latent-semantic-analysis/
——————————————————————————eeft u hulp nodig met een huiswerk-of testvraag? Met Chegg Study krijgt u stap-voor-stap oplossingen voor uw vragen van een expert in het veld. Je eerste 30 minuten met een Chegg tutor is gratis!