Locality Sensitive Hashing(LSH)–확장 가능한 솔루션에 대한 중복 제거 작업에 여러 소스에서
주제를 다시 왜 중복 제거까요?우리는 다양한 공공 채용 공고에서 채굴 작업 게시물과 결합 칼리 버에서 작업 게시물의 대규모 코퍼스를 사용하여 우리의 모델을 훈련. 유사한 작업 설명을 포함하는 우리의 코퍼스에서 여러 작업을 갖는 것은 모델에 해로운 것입니다. 의 예는 아래 이미지에 표시됩니다.
Duplicate job descriptions associated to varying positions can affect the model’s performance in distinguishing context between different job titles. 딥 러닝과 일반적인 기계 학습에서 모델은 기능 집합을 범주에 매핑하거나 목표를 최적화하는 기능을 학습하도록 훈련되므로 유사하지만 서로 다른 대상에 연결된 입력을 사용하면 모델의 신뢰와 성능에 확실히 영향을 미칩니다.예측 성능 문제 외에도 대부분의 데이터가 중복되는 대형 코퍼스를 가진 모델을 훈련하면 불필요한 계산 리소스가 소모됩니다.이것은 데이터를 이해하는 것이 모델의 성능에 쉽게 영향을 줄 수있는 방법을 보여줍니다.중복 탐지는 다양한 방법으로 수행 할 수 있습니다. 다음과 같은 간단한 벡터 표현으로 문서를 나타내는 것은 거의 유사한 문서를 발견하는 합리적인 방법이 될 수 있습니다. 이는 문서 벡터 간의 코사인 또는 유클리드 유사성과 같은 유사성 메트릭을 비교하여 수행 할 수 있습니다.우리는 다음과 같은 스 니펫에서 거의 동일한 텍스트를 식별하기 위해 알고리즘을 어떻게 적용 할 수 있는지 보여줍니다.2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년이 방법은 작은 말뭉치에서 작동하지만,이 때문에 문서를 변환 한 후 벡터의 결과 차원에 확장하기가 매우 어렵다. 또한 스크립트가 전체 파이프라인을 실행하는 데 319 밀리초 걸렸습니다. 이것은”차원의 저주”의 많은 표현 중 하나입니다—변환의 높은 차원은 분석의 공간과 시간 복잡성 모두에 영향을 미칩니다.이 문제를 해결하기 위해 지역 민감한 해싱이 필요합니다. 이 방법은 대규모 데이터 세트에 대해 거의 유사성 분석을 수행 할 수 있습니다. 해싱을 사용하여 문서를 동등한 차원보다 낮은 차원으로 버킷에 매핑합니다. 이 속성을 사용하면 텍스트 마이닝과 같은 대규모 응용 프로그램에서 편리하게 사용할 수 있습니다.이 알고리즘을 사용하면 충돌 확률을 계산할 수 있습니다. 이 응용 프로그램은 당신에게 아름다운 욕실 꾸미기의 갤러리를 보여줍니다. 간단히 말해서,자카드 유사성은 두 집합의 교차를 각 집합의 요소 합집합으로 나눈 값을 계산합니다. 이 공식은 아래에 나와 있습니다.2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 아이디어-더 일반적인 항목을 가진 두 그룹은 유사 할 가능성이 높습니다.해싱은 고차원 데이터의 차원성을 감소시킨다. 유사한 항목이 높은 확률로 동일한”버킷”에 매핑되도록 입력 항목을 해시합니다(가능한 입력 항목의 유니버스보다 훨씬 작은 버킷 수). 이 유사한 항목에 대한”충돌”의 가능성을 극대화하는 것을 목표로하기 때문에 지역에 민감한 해싱은 데이터 클러스터링 및 가장 가까운 이웃 검색과 공통점이 많습니다.우리는 위의 그림과 같은 예에 적용,이 모듈을 사용하여,엘에스의 구현 아래에 보여줍니다.2018 년 11 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년결과는 전체 파이프라인이 전체 파이프라인 버전보다 약 4 배 빠르다는 것을 보여줍니다. 이 차이는 더 큰 데이터 세트가 사용되면 더욱 과감합니다. 우리는 지금 메모리 성능에 대한 분석을 제외했지만 우리는 별도의 게시물에 두 방법 사이에 더 포괄적 인 벤치 마크를 작성합니다.우리는 우리의 코퍼스에 엘에스에스를 적용했고,거의 비슷한 콘텐츠를 가진 일부 직업 게시물이 200 번 이상 나타나는 것을 보았습니다!그 규모 데이터 세트를 다루는 경우,엘에스시는 더 편리한 모델이다. 심지어 작은 데이터 집합에 대 한 계산 시간에 상당한 개선을 제공 합니다.코퍼스를 올바르게 중복 제거할 수 있으면 학습 데이터의 노이즈가 줄어들고 계산 리소스가 절약되며 사용 사례에 대한 보다 정확한 모델을 학습할 수 있습니다.중복 이미지 정리:이미지 기능에 이미지 기능을 적용하고 각 빈에서 고유 한 이미지 만 유지합니다.챗봇:유사한 입력 근처에서 식별 및 기술 자료에서 최상의 응답을 식별하는 모델을 훈련.추천 엔진:그룹 거의 유사한 기능을 가진 항목과 사용자에게 항목을 보증.자신의 문제를 탐구하고 시도 주시기 바랍니다! 이 기사는 어떻게 작동하는지 잘 설명하고 예제를 보여줍니다.데이터 집합에 대한 자세한 내용은 데이터 집합에 대한 자세한 내용을 참조하십시오.우리를 따르라!우리는 기계 학습,딥러닝,딥러닝,확률적 프로그래밍 및 분석 프로젝트에 대한 기사를 지속적으로 게시하고 있습니다. 우리의 다음 게시물에 대한 알림을받을 우리를 따르라! 🙂