residual connection
입력 신호를 출력에 직접 더해줌으로써, 층이 깊어짐에 따라 발생하는 정보 손실 문제를 해결하는 기술
- 입력값()을 출력값()에 더하여 정보의 통로를 열어주는 것
- : 다음 레이어로 전달되는 최종 출력값
- : 레이어(가중치 층)를 통과하여 계산된 잔차(Residual)
- : 레이어의 입력값 (Identity)
transformer 에서는
- : 멀티 헤드 어텐션(attention) 또는 피드 포워드 신경망의 결과
- : 이 덧셈 과정이 바로 Residual Connection이며, 입력 정보 를 손실없이 전달
트랜스포머 아키텍처 내에서는 잔차 연결 직후에 **레이어 정규화(Layer Normalization)**가 함께 수행된다.
설명
입력 값 를 단순히 신경망 레이어()에 통과시키는 것이 아니라, 레이어를 거치지 않은 원래의 를 나중에 더해주는 방식
- 복잡한 설명을 듣기 전에(레이어 통과)
- 원래 하려던 질문 내용(입력값)을 잊지 않도록 옆에 적어두고 나중에 대조하는 것과 같음
효과
층이 매우 깊어질 때 학습 신호(기울기)가 사라지는 기울기 소실(Vanishing Gradient) 문제를 방지하는 것이 목적. 모델을 아주 깊게 쌓아도 안정적으로 학습이 가능함.
- 장기의존성 보존
- 네트워크의 깊이가 깊어져도 초기 입력 정보가 희석되지 않고 끝까지 전달될 수 있도록 도움
- 원활한 학습
- 역전파(Backpropagation) 시, 더해진 x를 통해 기울기가 직접 전달되는 ‘고속도로’ 역할을 하여 최적화가 쉬움
- 항등 매핑(Identity Mapping)
- 레이어가 쓸모없다고 판단되면 가중치를 0으로 만들어 입력 x를 그대로 출력으로 보낼 수 있어, 모델이 불필요하게 복잡해지는 것을 막음