residual connection

입력 신호를 출력에 직접 더해줌으로써, 층이 깊어짐에 따라 발생하는 정보 손실 문제를 해결하는 기술

H (x) = F (x) + x

transformer 에서는

Output = LayerNorm (x + Sublayer (x))

트랜스포머 아키텍처 내에서는 잔차 연결 직후에 **레이어 정규화(Layer Normalization)**가 함께 수행된다.

입력 값 $x$ 를 단순히 신경망 레이어( $F (x)$ )에 통과시키는 것이 아니라, 레이어를 거치지 않은 원래의 $x$ 를 나중에 더해주는 방식

층이 매우 깊어질 때 학습 신호(기울기)가 사라지는 기울기 소실(Vanishing Gradient) 문제를 방지하는 것이 목적. 모델을 아주 깊게 쌓아도 안정적으로 학습이 가능함.

장기의존성 보존
1. 네트워크의 깊이가 깊어져도 초기 입력 정보가 희석되지 않고 끝까지 전달될 수 있도록 도움
원활한 학습
1. 역전파(Backpropagation) 시, 더해진 x를 통해 기울기가 직접 전달되는 ‘고속도로’ 역할을 하여 최적화가 쉬움
항등 매핑(Identity Mapping)
1. 레이어가 쓸모없다고 판단되면 가중치를 0으로 만들어 입력 x를 그대로 출력으로 보낼 수 있어, 모델이 불필요하게 복잡해지는 것을 막음