residual connection

입력 신호를 출력에 직접 더해줌으로써, 층이 깊어짐에 따라 발생하는 정보 손실 문제를 해결하는 기술

  • 입력값()을 출력값()에 더하여 정보의 통로를 열어주는 것
  • : 다음 레이어로 전달되는 최종 출력값
  • : 레이어(가중치 층)를 통과하여 계산된 잔차(Residual)
  • : 레이어의 입력값 (Identity)

transformer 에서는

  • : 멀티 헤드 어텐션(attention) 또는 피드 포워드 신경망의 결과
  • : 이 덧셈 과정이 바로 Residual Connection이며, 입력 정보 를 손실없이 전달

트랜스포머 아키텍처 내에서는 잔차 연결 직후에 **레이어 정규화(Layer Normalization)**가 함께 수행된다.

설명

입력 값 를 단순히 신경망 레이어()에 통과시키는 것이 아니라, 레이어를 거치지 않은 원래의 를 나중에 더해주는 방식

  • 복잡한 설명을 듣기 전에(레이어 통과)
  • 원래 하려던 질문 내용(입력값)을 잊지 않도록 옆에 적어두고 나중에 대조하는 것과 같음

효과

층이 매우 깊어질 때 학습 신호(기울기)가 사라지는 기울기 소실(Vanishing Gradient) 문제를 방지하는 것이 목적. 모델을 아주 깊게 쌓아도 안정적으로 학습이 가능함.

  1. 장기의존성 보존
    1. 네트워크의 깊이가 깊어져도 초기 입력 정보가 희석되지 않고 끝까지 전달될 수 있도록 도움
  2. 원활한 학습
    1. 역전파(Backpropagation) 시, 더해진 x를 통해 기울기가 직접 전달되는 ‘고속도로’ 역할을 하여 최적화가 쉬움
  3. 항등 매핑(Identity Mapping)
    1. 레이어가 쓸모없다고 판단되면 가중치를 0으로 만들어 입력 x를 그대로 출력으로 보낼 수 있어, 모델이 불필요하게 복잡해지는 것을 막음