Articles

Latente semantische Analyse: Einfache Definition, Methode

Teilen auf

Statistik Definitionen > Latente semantische Analyse

Was ist latente semantische Analyse?

Latent Semantic Analysis (LSA) ist eine Methode, um zu analysieren, wie Wörter und Wortgruppen in Texten verwendet werden. Es wird verwendet, um Fragen zu beantworten wie:

  • Was ist die zugrunde liegende Bedeutung des Textes?
  • Welchen Einfluss haben Wörter auf die Bedeutung von Passagen?
  • Wie verhält sich die durchschnittliche Bedeutung von Wörtern in einer Passage zur Gesamtbedeutung einer Passage?

Sprache (insbesondere die englische Sprache) ist komplex, zum Teil, weil Wörter mehrere Bedeutungen haben. Zum Beispiel, Das Wort „heiß“ kann eine Vielzahl von Dingen bedeuten, einschließlich „in der Nähe von Kochen,“Sexy,“Oder“preislich zu verkaufen.“ Vieles hängt von dem Kontext ab, in dem Sie es verwenden (dh der umgebenden Passage). „Heiß“ in einem Text kann in einem anderen eine völlig andere Bedeutung haben, daher ist es keine leichte Aufgabe, verwandte Wörter, Passagen oder ganze Texte zu finden. LSA versucht dies, indem es Wörter Konzepten wie „Temperatur“ zuordnet,“Sex,“Oder“Geschäft.“ Die Wörter und die verknüpften Konzepte werden dann verglichen, um zur wahren Bedeutung des Textes zu gelangen.

Die latent semantische Analyse wird auch Latent Semantic Indexing (LSI) genannt.


Methode

latente semantische Analyse

Eine Matrix, in der jedes Element angibt, wie oft Wörter in einem Text vorkommen.

LSA verwendet eine erweiterte Matrixalgebra-Methode namens Singularwertzerlegung (SVD), um Matrizen zu faktorisieren . SVD ist normalerweise unpraktisch, um mehr als eine kleine Textprobe von Hand auszuführen. Tatsächlich wurde es erst nach den 1980er Jahren populär, als Computer auf die Bühne kamen, um die komplexen Algorithmen zu handhaben.
Die grundlegende Methode ist:

  • Der Text wird in Matrizen umgewandelt, um Passagen darzustellen. Jede Zelle in der Matrix enthält die Häufigkeit, mit der ein bestimmtes Wort in einer bestimmten Passage vorkommt.
  • Die Matrix ist so faktorisiert, dass jede Passage als Vektor dargestellt wird. Der Wert für jeden Vektor ist die Summe der Vektoren, die seine Komponentenwörter darstellen.
  • Punktprodukte, Kosinus oder ähnliche Metriken werden verwendet, um Ähnlichkeiten zwischen Wörtern und Passagen darzustellen.

Die Theorie hinter den in SVD verwendeten Algorithmen geht über den Rahmen dieses Artikels hinaus, aber Sie können mehr darüber in diesem Artikel der University of Victoria lesen.


Thomo, A. Latente semantische Analyse (Tutorial). Abgerufen Mai 28, 2020 von: https://www.engr.uvic.ca/~seng474/svd.pdf

ZITIEREN SIE DIES ALS:
Stephanie Glen. „Latente semantische Analyse: Einfache Definition, Methode“ Von StatisticsHowTo.com : Elementare Statistiken für den Rest von uns! https://www.statisticshowto.com/latent-semantic-analysis/

——————————————————————————

Brauchen Sie Hilfe bei einer Hausaufgabe oder Testfrage? Mit Chegg Study erhalten Sie Schritt-für-Schritt-Lösungen für Ihre Fragen von einem Experten auf diesem Gebiet. Deine ersten 30 Minuten mit einem Chegg Tutor sind kostenlos!