Analyse Sémantique latente: Définition Simple, Méthode
Définitions statistiques >Analyse Sémantique latente
Qu’est-ce que l’Analyse Sémantique latente?
L’analyse sémantique latente (LSA) est un moyen d’analyser comment les mots et les groupes de mots sont utilisés dans les textes. Il est utilisé pour répondre à des questions telles que:
- Quelle est la signification sous-jacente du texte?
- Quel effet les mots ont-ils sur la signification des passages ?
- Comment la signification moyenne des mots d’un passage se rapporte-t-elle à la signification globale d’un passage ?
La langue (en particulier la langue anglaise) est complexe, en partie parce que les mots ont des significations multiples. Par exemple, le mot « chaud » peut signifier une variété de choses, y compris « près de l’ébullition », « sexy » ou « prix à vendre ». »Beaucoup dépend du contexte dans lequel vous l’utilisez (c’est-à-dire le passage environnant). « Chaud » dans un texte peut avoir une signification complètement différente dans un autre, donc trouver des mots, des passages ou des textes entiers connexes n’est pas une tâche facile. LSA tente de le faire en associant des mots à des concepts tels que « température », « sexe » ou « affaires ». »Les mots et les concepts liés sont ensuite comparés pour arriver au sens réel du texte.
L’analyse sémantique latente est également appelée indexation sémantique latente (LSI).
Méthode
Une matrice où chaque élément montre à quelle fréquence les mots apparaissent dans un texte.
LSA utilise une méthode avancée d’algèbre matricielle appelée Décomposition en valeurs singulières (SVD) pour factoriser les matrices. La SVD n’est généralement pas pratique à effectuer à la main pour autre chose qu’un petit échantillon de texte. En fait, il n’est vraiment devenu populaire qu’après les années 1980, lorsque les ordinateurs sont entrés en scène pour gérer les algorithmes complexes.
La méthode de base est :
- Le texte est converti en matrices pour représenter les passages. Chaque cellule de la matrice contient le nombre de fois où un certain mot apparaît dans un certain passage.
- La matrice est factorisée de sorte que chaque passage soit représenté comme un vecteur. La valeur de chaque vecteur est la somme des vecteurs représentant ses mots composants.
- Des produits ponctuels, des cosinus ou des métriques similaires sont utilisés pour représenter les similitudes entre les mots et les passages.
La théorie derrière les algorithmes utilisés dans la SVD dépasse le cadre de cet article, mais vous pouvez en savoir plus à ce sujet dans cet article de l’Université de Victoria.
Thomo, A. Analyse sémantique latente (Tutoriel). Récupéré le 28 mai 2020 de: https://www.engr.uvic.ca/~seng474/svd.pdf
Stephanie Glen. « Analyse Sémantique Latente: Définition Simple, Méthode » De StatisticsHowTo.com : Statistiques élémentaires pour le reste d’entre nous! https://www.statisticshowto.com/latent-semantic-analysis/
——————————————————————————
Besoin d’aide pour une question de devoirs ou de test? Avec Chegg Study, vous pouvez obtenir des solutions étape par étape à vos questions d’un expert dans le domaine. Vos 30 premières minutes avec un tuteur Chegg sont gratuites!