Batch Normalization과 ReLU가 Vanishing Gradient 문제를 해결했지만, 모델이 깊을수록 training error가 커지는 문제 발생
이를 해결하고자 ‘깊은 것이 얕은 겻을 흉내낼 수 있지 않은가?’라는 아이디어로 시작
→ 이것이 곧 ‘identity mapping’: Input 그대로 Output 값이 되도록 하는 것.
하지만, 오히려 training error가 커지는 것을 보아 모델이 identity mapping을 만들기 어려워한다는 것을 발견.
→ 그래서 등장한게 ‘skip-connection(shortcut connection)’인 것.
→ Vanishing Gradient를 해결하기 위해서 skip-connection을 하는 것이 아닌 skip-connection을 적용해보니 효과가 뛰어났던 것.