- 원문: https://arxiv.org/abs/1412.7062
- 참고자료: 라온피플 블로그
- 대분야: Image Segmentation
- 소분야: Semantic Segmentation, Statistical Learning
- 제안 기법
- CRF(Conditional Random Field)를 Convolutional network에 적용하여 Segment boundary를 localize하는 기법 제안
- 공간적 정보 손실을 최소화하기 위한 Atrous Convolution 기법 제안 → Dilated Convolution으로 이어짐
- 키워드: Conditional Random Field, Atrous Convolution
Preliminary Knowledges
- Conditional Random Field:
Problems & Proposal
- Single downsampling – Maxpool 레이어와 Downsampling으로 인한 Signal resolution reduction 현상이 발생합니다.
- Atrous Convolution을 제안하여 Signal reduction을 최소화합니다. → 추후 Dilated Convolution이라는 이름으로 다시 사용됩니다.
- Spatial insensitivity (Spatial invariance)
- 기존의 DCNN의 경우 공간적 정확도가 떨어지는 특성이 있습니다.
- fully-connected Conditioal Random Field를 이용하여 model 결과의 Fine-detail을 살립니다. CRF의 경우 기존 Classifier의 class score와 Low-level pixel/edge information을 결합하는데 사용되었습니다.
- 계층의존구조(Hierarchical dependency)를 모델링하는데 Fully Connected Pairwise CRF를 사용하였습니다. 이는 기존 Boose-based Pixel-level Classifier(Semantic Segmentation)에서 성능을 높이는데 사용되었습니다.
Hole Algorithm = Atrous Convolution
- 논문에서는 Maxpool Layer 뒤에 따라오는 8-pixel Strided Convolution 을 사용하는 대신, Sparse하게 Convolution을 수행할 수 있도록 Convolution 시 중간에 Hole을 채워넣는 연산입니다.

같은 Kernel size의 컨볼루션을 한 번만 수행하면, Stride의 수를 늘린것과 동일하게 Feature가 작아지는 효과가 있고 이와 동시에 Receptive Field의 크기가 확장되는 효과를 얻을 수 있습니다.
Atrous Convolution은 기존 Wavelet을 이용한 신호분석에 사용되던 방식이지만, 이를 영상과 같은 2차원 데이터에도 활용하여 연산량을 줄이는 효과를 얻을 수 있습니다.

Fully-Connected Conditional Random Field For Accurate Localization

DeepLab V1에서는 Atrous convolution과 함께 CRF를 후처리 과정으로 사용해 예측 정확도를 높혔습니다. 기존 Short-Range CRF는 Segmentation noise를 없애는 용도로 사용되었는데, 전체 픽셀에 대한 Fully-Connected CRF을 수행할 경우 높은 정확도로 Segmentation이 가능한 것으로 알려져 Fully-Connected CRF를 수행하였습니다.
- DenseCRF 논문: Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials
- 원본블로그 참고자료 #1 – Inference in Fully Connected CRFs with Gaussian Edge Potentials
- 원본블로그 침고자료 #2 – DeepLab-semantic image segmentation

기존의 Short-range CRF의 경우 Local connection (Neighbor-) 정보만을 사용하게 되므로 오히려 Segmentation이 뭉뚱그려지고, Sharp한 boundary보다는 Noise에 강인한 결과를 얻을 수 있었습니다.

이를 Fully-Connected CRF (추후 DeepLab V3에서는 DenseCRF라고 불립니다)를 이용하여 Pixel-by-pixel로 Fully Connected Graph로 연결합니다. 물론 노드의 수가 상당히 많은 Markov Chain이므로 시간이 상당히 오래 걸리는 Task인데, DenseCRF 논문에서는 이를 Mean Field Approximation이라는 방법으로 해결하였습니다. 이 방식을 적용하여 Message passing을 이용한 iteration 방식을 이용하면, 효과적(효율적)으로 DenseCRF를 수행할 수 있게 됩니다.