modellünk kiképzéséhez a Kalibrr álláshelyeinek hatalmas korpuszát használjuk, különféle nyilvános álláshirdetések bányászott álláshelyeivel kombinálva. Ha a korpuszunkban több, hasonló munkaköri leírást tartalmazó munkahely van, az káros lesz a modellre. Példa erre az alábbi képen látható.
Duplicate job descriptions associated to varying positions can affect the model’s performance in distinguishing context between different job titles. Mivel a mély tanulás, és általában a gépi tanulás, a modelleket arra tanítják, hogy tanuljanak meg egy olyan funkciót, amely a funkciók egy csoportját kategóriákra térképezi fel, vagy optimalizálja a célt, a hasonló, de különböző célokhoz kapcsolódó bemenetek mindenképpen befolyásolják a modell bizalmát és teljesítményét.
A prediktív teljesítmény kérdése mellett egy nagy korpuszú modell képzése, ahol az adatok nagy része másolat, felesleges számítási erőforrásokat fog felhasználni.
Ez azt szemlélteti, hogy az adatok megértése hogyan befolyásolhatja könnyen a modell teljesítményét.
Tf-Idf — egy egyszerű deduplikációs algoritmus
a másolatok detektálása sokféle módon történhet. A dokumentumok ábrázolása olyan egyszerű vektorábrázolásokban, mint a tf-idf, ésszerű módszer lehet a hasonló dokumentumok felfedezésére. Ezt úgy lehet megtenni, hogy összehasonlítjuk a hasonlósági mutatókat, például a koszinusz vagy az euklideszi hasonlóságot a dokumentumvektorok között.
a következő részletben bemutatjuk, hogyan alkalmazhatjuk az algoritmust a közel azonos szövegek azonosítására.