Transformer - Naver Boostcamp 9주차 개인 보충학습

16 Nov 2022 in Study

RNN

직렬적인 구조로 인해 초기 sequence 정보가 손실, 왜곡될 우려가 있음.

Bi-directional RNNs Backward RNN 을 생성. Forward RNN(기존)과 함께 동일한 단어에 대하여 두개의 hidden state를 가져옴(이전단어들 + 이후단어들 -> Concat) 그러면 sequence 전체를 고려하게 됨

attention에서도 입력과 출력의 세팅은 동일함. 즉 단어를 인코딩하는 것은 같다.

Output 은 values의 weighted sum
weights는 Query * Key $A(Q, K, V) = softmax({Q \cdot K^{T} \over {\sqrt{d_{k}}}} {})V$
why ‘Scaled’?
- length of query가 길어질수록 분산이 증가한다. 이는 softmax를 통과할때 큰 값에 굉장히 확률이 몰리는 결과를 만들 수 있다. 따라서 $\sqrt{d_{k}}$로 나누어 주면 분산을 1로 만들 수 있다.
- softmax 값이 너무 편중되어 있으면 gradient vanishing이 발생할 위험성이 있어서 학습이 거의 되지 않을 수 있다. 이를 방지해줌.\

residual connection 으로 입력값을 출력값에 더해준다. 이를 통해 모델은 출력값 - 입력값 만을 학습하여 gradient vanishing 도 없애고 학습이 더 잘 되도록 함.

layer normalization (BN과 비슷) 적용.

sequence에서의 해당 단어의 위치를 알 수 있게 특정한 상수 벡터를 각 입력 벡터에 더해주어 위치정보를 추가 (완전히 이해하지는 못함). sin, cos 함수를 이용하여 positional encoding 해줌.

Query 이후에 오는 Key는 mask 해주어서 미래정보를 아는 leakage가 생기지 않게 함. mask 한 다음에는 안한값들의 합이 1이 되도록 후처리가 또 필요 함.