Zurück zum Thema — warum ist Deduplizierung wichtig?
Wir verwenden einen riesigen Korpus von Stellenangeboten von Kalibrr in Kombination mit geminten Stellenangeboten aus verschiedenen öffentlichen Stellenangeboten, um unser Modell zu trainieren. Wenn mehrere Jobs in unserem Korpus ähnliche Stellenbeschreibungen enthalten, wirkt sich dies nachteilig auf das Modell aus. Beispiel davon ist im Bild unten gezeigt.
Duplicate job descriptions associated to varying positions can affect the model’s performance in distinguishing context between different job titles. Da Deep Learning und im Allgemeinen maschinelles Lernen Modelle darauf trainiert werden, eine Funktion zu erlernen, die eine Reihe von Funktionen Kategorien zuordnet oder ein Ziel optimiert, wirken sich ähnliche Eingaben, die jedoch unterschiedlichen Zielen zugeordnet sind, definitiv auf das Vertrauen und die Leistung des Modells aus.
Neben dem prädiktiven Leistungsproblem verbraucht das Trainieren eines Modells mit einem großen Korpus, bei dem die meisten Daten Duplikate sind, unnötige Rechenressourcen.
Dies veranschaulicht, wie sich das Verständnis der Daten leicht auf die Leistung des Modells auswirken kann.
Tf-Idf — ein einfacher Deduplizierungsalgorithmus
Das Erkennen von Duplikaten kann auf verschiedene Arten erfolgen. Die Darstellung von Dokumenten in einfachen Vektordarstellungen wie tf-idf kann eine vernünftige Methode sein, um nahezu ähnliche Dokumente zu finden. Dies kann durch Vergleich von Ähnlichkeitsmetriken wie Cosinus oder euklidische Ähnlichkeit zwischen Dokumentvektoren erfolgen.
Wir zeigen im folgenden Snippet, wie wir den Algorithmus anwenden können, um nahezu identische Texte zu identifizieren.