terug naar het onderwerp — Waarom is deduplicatie belangrijk?
we gebruiken een enorm corpus van vacatures van Kalibrr gecombineerd met gedolven vacatures van verschillende openbare vacatures om ons model te trainen. Het hebben van meerdere banen in ons corpus met vergelijkbare functiebeschrijvingen zal nadelig zijn voor het model. Voorbeeld hiervan wordt weergegeven in de afbeelding hieronder.
Duplicate job descriptions associated to varying positions can affect the model’s performance in distinguishing context between different job titles. Aangezien diep het leren, en in het algemeen machine het leren, modellen worden opgeleid om een functie te leren die een reeks eigenschappen aan categorieën in kaart brengt of een doel optimaliseert, die input hebben die gelijkaardig zijn maar aan verschillende doelstellingen worden geassocieerd zal zeker het vertrouwen en de prestaties van het model beà nvloeden.
naast het probleem van voorspellende prestaties zal het trainen van een model met een groot corpus waarin de meeste gegevens duplicaten zijn, onnodige rekenmiddelen verbruiken.
Dit is een illustratie van hoe inzicht in de gegevens gemakkelijk de prestaties van het model kan beïnvloeden.
Tf-Idf-een eenvoudig deduplicatiealgoritme
het detecteren van duplicaten kan op verschillende manieren worden gedaan. Het weergeven van documenten in eenvoudige vectorvoorstellingen zoals tf-idf kan een redelijke methode zijn voor het ontdekken van bijna-soortgelijke documenten. Dit kan worden gedaan door vergelijking van gelijkenis metrics zoals cosinus of Euclidische gelijkenis tussen document vectoren.
we laten in het volgende fragment zien hoe we het algoritme kunnen toepassen om bijna identieke teksten te identificeren.