[베이스리뷰 1주차] DeepLab V1 “Semantic Image Segmentation With Deep Convolutional Nets And Fully Connected CRFs”

  • 원문: https://arxiv.org/abs/1412.7062
  • 참고자료: 라온피플 블로그
  • 대분야: Image Segmentation
  • 소분야: Semantic Segmentation, Statistical Learning
  • 제안 기법
    • CRF(Conditional Random Field)를 Convolutional network에 적용하여 Segment boundary를 localize하는 기법 제안
    • 공간적 정보 손실을 최소화하기 위한 Atrous Convolution 기법 제안 → Dilated Convolution으로 이어짐
  • 키워드: Conditional Random Field, Atrous Convolution

Preliminary Knowledges

  • Conditional Random Field:

Problems & Proposal

  • Single downsampling – Maxpool 레이어와 Downsampling으로 인한 Signal resolution reduction 현상이 발생합니다.
    • Atrous Convolution을 제안하여 Signal reduction을 최소화합니다. → 추후 Dilated Convolution이라는 이름으로 다시 사용됩니다.
  • Spatial insensitivity (Spatial invariance)
    • 기존의 DCNN의 경우 공간적 정확도가 떨어지는 특성이 있습니다.
    • fully-connected Conditioal Random Field를 이용하여 model 결과의 Fine-detail을 살립니다. CRF의 경우 기존 Classifier의 class score와 Low-level pixel/edge information을 결합하는데 사용되었습니다.
    • 계층의존구조(Hierarchical dependency)를 모델링하는데 Fully Connected Pairwise CRF를 사용하였습니다. 이는 기존 Boose-based Pixel-level Classifier(Semantic Segmentation)에서 성능을 높이는데 사용되었습니다.

Hole Algorithm = Atrous Convolution

  • 논문에서는 Maxpool Layer 뒤에 따라오는 8-pixel Strided Convolution 을 사용하는 대신, Sparse하게 Convolution을 수행할 수 있도록 Convolution 시 중간에 Hole을 채워넣는 연산입니다.
Atrous Convolution | 출처

같은 Kernel size의 컨볼루션을 한 번만 수행하면, Stride의 수를 늘린것과 동일하게 Feature가 작아지는 효과가 있고 이와 동시에 Receptive Field의 크기가 확장되는 효과를 얻을 수 있습니다.

Atrous Convolution은 기존 Wavelet을 이용한 신호분석에 사용되던 방식이지만, 이를 영상과 같은 2차원 데이터에도 활용하여 연산량을 줄이는 효과를 얻을 수 있습니다.

Fully-Connected Conditional Random Field For Accurate Localization

CRF Iteration에 따른 Boundary localization | 출처

DeepLab V1에서는 Atrous convolution과 함께 CRF를 후처리 과정으로 사용해 예측 정확도를 높혔습니다. 기존 Short-Range CRF는 Segmentation noise를 없애는 용도로 사용되었는데, 전체 픽셀에 대한 Fully-Connected CRF을 수행할 경우 높은 정확도로 Segmentation이 가능한 것으로 알려져 Fully-Connected CRF를 수행하였습니다.

기존의 Short-range CRF의 경우 Local connection (Neighbor-) 정보만을 사용하게 되므로 오히려 Segmentation이 뭉뚱그려지고, Sharp한 boundary보다는 Noise에 강인한 결과를 얻을 수 있었습니다.

이를 Fully-Connected CRF (추후 DeepLab V3에서는 DenseCRF라고 불립니다)를 이용하여 Pixel-by-pixel로 Fully Connected Graph로 연결합니다. 물론 노드의 수가 상당히 많은 Markov Chain이므로 시간이 상당히 오래 걸리는 Task인데, DenseCRF 논문에서는 이를 Mean Field Approximation이라는 방법으로 해결하였습니다. 이 방식을 적용하여 Message passing을 이용한 iteration 방식을 이용하면, 효과적(효율적)으로 DenseCRF를 수행할 수 있게 됩니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다