https://arxiv.org/pdf/1409.4842
Inception module: 다양한 kernel_size를 사용하여 결과를 concat
VGGNet은 3X3 filter를 두 번 통과하여 5X5 filter와 같은 receptive filed를 얻었지만, 해당 모델에서는 3가지를 모두 사용하여 얻은 feature map을 depth축으로 concat하는 방식을 채택한 것.
→ 행렬 크기가 같아야 concatenation이 가능하기에 channel Size 조절이 핵심
Inception Module with dimension reductions
BottleNeck 구조를 만들어 필요한 parameter 수 감소 → 차원 축소
[1X1 Conv + 3X3 Conv]
Input C = 192
1X1 Conv = (96, 192, 1, 1)
3X3 Conv = (128, 96, 3, 3)
⇒ total params = (96X128X3X3) + (96X192X1X1) = 129,024개
[only 3X3 Conv]
Input C = 192
3X3 Conv = (128, 192, 3, 3)
⇒ total params = 128X192X3X3 = 221,184개
⇒ result: 약 2배 차이 (1.71배)
다른 Size의 filter와는 다르게 1X1 Conv는 주변의 공간 정보를 섞지 않고 오직 Channel 축으로만 재조합하여 새로운 feature map을 생성
*“공간 정보를 섞지 않는다”*가 중요한 이유
→ 위치 정보는 그대로 보존한채 ‘무엇을 볼지’만 변화시킬 수 있다.