체 감지를 위한 거짓 3 부:R-CNN 가족
3 부에서는,우리는 것을 검토 네 객체 모델 검색:R-CNN,빠르 R-CNN,빠르 R-CNN,그리고 마스크 R-CNN. 이 모델은 매우 관련이 있으며 새 버전은 이전 모델에 비해 뛰어난 속도 향상을 보여줍니다.”인형에 대한 객체 감지”의 시리즈에서,우리는 1 부에서,같은 그라디언트 벡터와 돼지 등의 이미지 처리의 기본 개념으로 시작했다. 그런 다음 2 부에서 객체 인식,과식 및 디피엠을위한 분류 및 선구자 모델을위한 고전적인 컨볼 루션 신경망 아키텍처 설계를 도입했습니다. 이 시리즈의 세 번째 게시물에서 우리는 연구 지역(“지역 기반 지역”)제품군의 모델 세트를 검토하려고합니다.여기이 게시물에 덮여 논문의 목록입니다 😉
Model Goal Resources R-CNN Object recognition Fast R-CNN Object recognition Faster R-CNN Object recognition Mask R-CNN Image segmentation R-CNN
R-CNN (Girshick et al., 2014) is short for “Region-based Convolutional Neural Networks”. The main idea is composed of two steps. 첫째,선택적 검색을 사용하여 관리 가능한 수의 경계 상자 객체 영역 후보(“관심 영역”또는”투자 수익”)를 식별합니다. 그런 다음 분류를 위해 각 지역에서 현지 기능을 독립적으로 추출합니다.2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일 1. 연구-현지 아키텍처. (이미지 출처:기르 식 외. 이미지 분류 작업에 대한 현지 네트워크를 사전 훈련;예를 들어,이미지 넷 데이터 세트에 대한 훈련. 분류 작업에는 엔 클래스. 참고:당신은 카페 모델 동물원에서 사전 훈련 알렉스넷을 찾을 수 있습니다. 나는 당신이 그것을 텐서 플로우에서 찾을 수 있다고 생각하지 않지만 텐서 플로우 슬림 모델 라이브러리는 사전 훈련 된 레스 넷,비디오 및 기타를 제공합니다.선택 검색(이미지 당~2,000 후보)에 의해 관심의 카테고리 독립적 인 영역을 제안한다. 이러한 영역에는 대상 개체가 포함될 수 있으며 크기가 다릅니다.지역 후보는 현지 필요에 따라 고정 된 크기를 가지고 뒤틀린된다.추가 하나의 클래스는 배경(관심의 대상)을 의미한다. 미세 조정 단계에서는 훨씬 적은 학습률을 사용해야 하며,대부분의 제안된 영역은 배경일 뿐이므로 미니 배치는 긍정적인 사례를 오버샘플링합니다.모든 이미지 영역을 감안할 때,현지를 통해 하나의 순방향 전파 기능 벡터를 생성합니다. 그런 다음 이 특징 벡터는 각 클래스에 대해 독립적으로 훈련 된 이진 벡터에 의해 소비됩니다. 긍정적 인 샘플은 차용 증서(노동 조합을 통해 교차)중복 임계 값과 지역을 제안하고,음의 샘플은 관련이없는 다른 사람입니다.지역화 오류를 줄이기 위해,회귀 모델은 현지 기능을 사용하여 오프셋 경계 상자 보정에 예측 검출 창을 해결하기 위해 훈련된다.회귀 분석기는 두 중심과 두 중심 사이의 축척 불변 변환을 배우도록 구성되어 있으며,회귀 분석기는 두 중심 사이의 축척 불변 변환을 배우도록 구성되어 있습니다.너비와 높이 사이의 로그 스케일 변환. 모든 변환 함수는 입력으로 사용합니다.2018 년 11 월 1 일(토)~2018 년 12 월 15 일(일)~2018 년 12 월 15 일(일)~2018 년 12 월 15 일(일)~2018 년 12 월 15 일(일)~2018 년 12 월 15 일(일)~2018 년 12 월 15 일(일) 2. 예측 및 지상 진실 경계 상자 사이의 변환의 그림.
는 명백한 혜택의 적용하는 등의 변환은 모든 경계 상자의 보정 기능,\(d_i(\mathbf{p})\)디\(i\\에서{x,y,w,h\}\),용할 수 있습니다 사이의 값. 표준 회귀모델은 정규화를 통해 손실량을 최소화하여 문제를 해결할 수 있습니다. 또한 예측 된 모든 경계 상자에 해당 접지 진실 상자가있는 것은 아닙니다. 예를 들어 겹침이 없는 경우 비박스 회귀를 실행하는 것은 의미가 없습니다. 여기서,적어도 0.6 차용 증서를 가진 근처의 지상 진실 상자가있는 예측 상자 만 상자 회귀 모델을 훈련시키기 위해 보관됩니다.여러 트릭은 일반적으로 다른 검출 모델에 사용된다.비 최대 억제각 클래스에 대한 원래 투자 수익률을 기준으로 오프셋을 예측하는 경계 상자 회귀 모델입니다.
손실능
모델에 대해 최적화된 손실이 결합하는 두 작업(분류+현지화):
기호 설명 \(u\) 진정한 클래스 상표,\(u\0,1,\점,K\);규칙에 따라, catch-all 배경 클래스에는\(u=0\).이산 확률 분포(투자 수익 당)케이+1 클래스:\(피=(피 _0,\점,피_케이)\),소프트 맥스에 의해 계산 케이+1 완전히 연결된 레이어의 출력.이 경우 경계 상자(예:경계 상자)를 사용할 수 있습니다.예를 들어,경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측하고 경계 상자 보정을 예측합니다. 위 참조.손실 함수는 분류 및 경계 상자 예측의 비용을 합산합니다.\(\매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트+매스칼로리 텍스트 “배경”투자 수익률,\(\텍스트 상자}\)는 다음과 같이 정의 된 표시기 함수에 의해 무시됩니다.:이 경우,손실 함수들은 손실 함수들의 전체 손실 함수들을 포함하며,손실 함수들의 전체 손실 함수들은 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 전체 손실 함수들의 이 경우,이 문서는”있는 그대로”제공되며”있는 그대로”제공되며 업데이트되지 않습니다.”라고 명시되어 있습니다.이 문서의 내용은 한국어”있는 그대로”제공됩니다.이 함수에서는 손실 함수와 손실 함수의 차이를 측정 할 수 있습니다. 부드러운 엘 1 손실은 여기에서 채택되며 이상치에 덜 민감하다고 주장됩니다.2018 년 10 월 15 일(토)~2018 년 10 월 15 일(일)~2018 년 10 월 15 일(일)~2018 년 10 월 15 일(일)~2018 년 10 월 15 일(일)~2018 년 10 월 15 일(일) 6. 이 경우,모든 것이 순조롭지 않습니다. (이미지 출처:링크)케이=각 슬라이딩 위치에서 9 개의 앵커.다음 빠른 연구-연구 네트워크를 사용하여 연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구-연구 공유 컨볼루션 레이어를 유지하는 동안 특정 레이어 만 미세 조정합니다. 이 단계에서 탐지 네트워크는 컨볼 루션 레이어를 공유했습니다!단계 4-5 의 고유 한 레이어를 반복하여 필요할 경우 빠른 레이어와 빠른 레이어를 훈련 할 수 있습니다.손실 함수는 빠른 작업 손실 함수에 최적화되어 있으며,빠른 작업 손실 함수와 유사합니다.
기호 설명 \(p_i\) 예측 확률의 닻을 내가되고 있습니다.앵커가 객체인지 여부의 접지 진실 레이블(이진).예를 들어,매개 변수화 된 좌표 4 개를 예측했습니다.이 경우,좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표 좌표.정규화 용어,용지에서 미니 배치 크기(~256)로 설정합니다.정규화 용어,용지에서 앵커 위치(~2400)의 수로 설정합니다.용지에~10 으로 설정 균형 매개 변수,(그래서 모두\(\매스 칼 텍스트{상자})와\(\매스 칼 텍스트{상자})용어는 거의 동일하게 가중된다).다중 작업 손실 함수는 분류 및 경계 상자 회귀 분석의 손실을 결합합니다.이 함수는 두 클래스를 통해 로그 손실 함수이며,샘플 데이터 분석을 예측하여 다중 클래스 분류를 이진 분류로 쉽게 변환 할 수 있습니다.대상 개체 대 아닙니다. 이 경우,손실 된 텍스트를 반환 할 수 있습니다.또한,상기 제 1 항과 제 2 항은 상기 제 2 항 및 제 2 항과 같은 제 2 항과 제 2 항 및 제 2 항과 같은 제 2 항과 제 2 항과 제 2 항과 제 2 항과 제 2 항과 제 2 항과 제 2 항을 포함한다. 2017)는 픽셀 수준의 이미지 분할로 더 빠르게 확장됩니다. 중요한 점은 분류 및 픽셀 수준 마스크 예측 작업을 분리하는 것입니다. 더 빠른 연구-현지화의 틀을 기반으로,분류 및 지역화를 위해 기존 분기와 병렬로 객체 마스크를 예측하는 세 번째 분기를 추가했습니다. 마스크 분기는 각 투자 수익에 적용되는 작은 완전히 연결된 네트워크이며 픽셀 간 방식으로 세분화 마스크를 예측합니다.2018 년 10 월 15 일(토)~2018 년 10 월 15 일(일) 8. 이미지 분할과 빠른 아르 자형-현지 모델 마스크입니다. (이미지 출처:그는 외. 픽셀 수준의 세분화는 경계 상자보다 훨씬 더 세분화된 정렬을 필요로 하기 때문에,”로이알링크 레이어”라고 명명된 로이 풀링 레이어를 개선하여 로이가 원본 이미지의 영역에 더 잘 그리고 더 정확하게 매핑될 수 있도록 합니다.2018 년 11 월 1 일(토)~2018 년 12 월 15 일(일)~2018 년 12 월 15 일(일)~2018 년 12 월 15 일(일)~2018 년 12 월 15 일(일)~2018 년 12 월 15 일(일)~2018 년 12 월 15 일(일)~2018 년 12 월 15 일(일) 9. 코코 테스트 세트에 마스크 연구소에 의해 예측. (이미지 출처:그는 외. 2017 년) RoIAlign
RoIAlign 층 해결하도록 설계된 위치 정렬에 의해 발생 양자화에 RoI 를 풀링을 수행합니다. 예를 들어,추출된 피쳐가 입력 픽셀과 적절하게 정렬될 수 있도록 해시양자화를 제거합니다. 쌍선형 보간은 입력에서 부동 소수점 위치 값을 계산하는 데 사용됩니다.2018 년 10 월 15 일(토)~2018 년 10 월 15 일(일) 10. 관심 영역은 정수로 반올림하지 않고 원본 이미지에서 피처 맵으로 정확하게 매핑됩니다. (이미지 소스: 손실 함수는 분류,지역화 및 분할 마스크의 손실을 결합한다:\(\매스칼로리=\매스칼로리=\매스칼로리 텍스트 상자+\매스칼로리 텍스트 마스크\),여기서\(\매스칼로리 텍스트 상자+\매스칼로리 텍스트 마스크\)및\(\매스칼로리 텍스트 상자+\매스칼로리 텍스트 마스크\)및\(\매스칼로리 텍스트 상자+\매스칼로리 텍스트 상자+\매스칼로리 텍스트 상자+\매스칼로리 텍스트 상자+\매스칼로리 텍스트 상자+\매스칼로리 텍스트 상자+\매스칼로리 텍스트 상자+\매스칼로리 텍스트 상자+\매스칼로리 텍스트 상자}_\텍스트{상자}\)는 더 빠른 것과 같습니다.마스크 분기는 차원 마스크를 생성합니다 미디엄 엑스 미디엄 각 투자 수익 및 각 클래스에 대해;케이 총 클래스. 따라서 총 출력은 크기\(케이\시도 미디엄^2\). 모델이 각 클래스에 대한 마스크를 배우려고하기 때문에 마스크를 생성하는 클래스 간의 경쟁이 없습니다.[1][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2][2]지상 배운 마스크-진실 클래스 케이.여기서 나는 모델 디자인을 보여 주며,빠른 모델 디자인,빠른 모델 디자인,빠른 모델 디자인 및 마스크 디자인을 보여줍니다. 당신은 작은 차이를 비교하여 하나의 모델이 다음 버전으로 발전하는 방법을 추적 할 수 있습니다.2015 년 11 월 1 일,서울시 강남구 테헤란로 15 길 12(역삼동),서울시 강남구 테헤란로 15(역삼동),서울시 강남구 테헤란로 15(역삼동),서울시 강남구 테헤란로 15(역삼동),서울시 강남구 테헤란로 15(역삼동),서울시 강남구 테헤란로 15(역삼동),서울시 강남구 테헤란로 15(역삼동),서울시 강남구 테헤란로 15(역삼동),서울시 강남구 테헤란로 15(역삼동),그리고 지 텐드 라 말릭. “정확한 객체 감지 및 시맨틱 세분화를위한 풍부한 기능 계층 구조.”프록에서. 아이에프 컴퓨터 비전 및 패턴 인식에 관한 연구. 2014.로스 거식. “빠른.”프록에서. 국제 콘프 컴퓨터 비전,1440-1448 쪽. 2015.그 후,그는 1990 년대 초반부터 1990 년대 초반까지 계속되었습니다. “지역 제안 네트워크를 통한 실시간 객체 탐지를 향해 더욱 빨라졌습니다.”신경 정보 처리 시스템의 발전(닙스),91-99 쪽. 2015.
Kaiming 그는,조지아 Gkioxari,Piotr Dollár,로스 Girshick. “마스크. 2017 년 10 월 15 일.그 결과,그 결과,그 결과,그 결과,그 결과,그 결과,그 결과,그 결과,그 결과,그 결과,그 결과,그 결과,그 결과,그 결과,그 결과,그 결과,그 결과,그 결과. “당신은 한 번만 보면:통합,실시간 객체 감지.”프록에서. 아이에프 컴퓨터 비전 및 패턴 인식에 대한 자세한 내용은 다음을 참조하십시오. 2016.”이미지 분할에 대한 간략한 역사:아르 자형에서 마스크 아르 자형까지”아 델라 스.2018 년 10 월 15 일(토)~2018 년 10 월 15 일(일)