GoogLeNet (2014.09)

“Going deeper with convolutions”

Inception module: 다양한 kernel_size를 사용하여 결과를 concat
- VGGNet은 3X3 filter를 두 번 통과하여 5X5 filter와 같은 receptive filed를 얻었지만, 해당 모델에서는 3가지를 모두 사용하여 얻은 feature map을 depth축으로 concat하는 방식을 채택한 것.
  
  → 행렬 크기가 같아야 concatenation이 가능하기에 channel Size 조절이 핵심
Inception Module with dimension reductions
- 1X1 conv filter가 하는 역할과 의미
  1. BottleNeck 구조를 만들어 필요한 parameter 수 감소 → 차원 축소
    - Example)
    [1X1 Conv + 3X3 Conv]
    
    Input C = 192
    
    1X1 Conv = (96, 192, 1, 1)
    
    3X3 Conv = (128, 96, 3, 3)
    
    ⇒ total params = (96X128X3X3) + (96X192X1X1) = 129,024개
    
    [only 3X3 Conv]
    
    Input C = 192
    
    3X3 Conv = (128, 192, 3, 3)
    
    ⇒ total params = 128X192X3X3 = 221,184개
    
    ⇒ result: 약 2배 차이 (1.71배)
  2. 다른 Size의 filter와는 다르게 1X1 Conv는 주변의 공간 정보를 섞지 않고 오직 Channel 축으로만 재조합하여 새로운 feature map을 생성
    - *“공간 정보를 섞지 않는다”*가 중요한 이유
      
      → 위치 정보는 그대로 보존한채 ‘무엇을 볼지’만 변화시킬 수 있다.