누누와데이터

[논문 리뷰] Effective Approaches to Attention-based Neural Machine Translation 본문

자연어처리 논문

[논문 리뷰] Effective Approaches to Attention-based Neural Machine Translation

happynunu 2022. 2. 11. 17:44

Effective Approaches to Attention-based Neural Machine Translation는 attention 기법이 기계번역이 적용되기 시작하던 초창기에 이에 대한 성능을 높이는 방법을 소개한 논문이다. 2022년 현재는 self-attention에 기반한 transformer방법들이 기계번역 성능을 높이는 데, 주로 많이 쓰이지만 이 때 당시만 하더라도 encoder-decoder기반의 모델에서 attention을 접목시켜서 해결하는 것이 주된 방식이였던 것 같다. 

논문에서는 Global approach 과 Local approach 두가지 방식을 소개하면서 Bahdanau attetion보다 성능이 좋으면서 연산과정은 더 간단함을 보이고 있다. 특히 Local approach 방식의 경우, window기반과 확률적 방식을 도입해서 성능을 높이면서 Global approach보다 attention연산이 더 간단하게 된 것이 인상적이였다. Local approach에 사용한 gaussian 확률적 방법은 논문에서 자세히 설명이 안돼서 아쉬웠는데 이에 대해서 추가적으로 공부하는 것이 필요할 것 같다. 

 

1. Introduction

Neural Machine Translation

•NMT(Neural Machine Translation)은  end-to-end 방식으로 학습이 되며,  매우 긴 word sequences도 일반화할 수 있는 능력을 가진다.
•이는 이전의 일반적인 Machine Translation과 다르게 메모리 용량을 많이 요구하지 않음을 뜻한다.

 

Attention mechanism

• attentio은 맨처음 nlp에서 encoder-decoder 기반의 기계번역 task에 맨처음 적용되었다.
•기본원리는 encoder에서  decoder로 representation 정보가 전달될때, context vector 정보 또한 고려하는 것이다.
•이는 디코더에서 target 정보를 입력 받을 때, source information 정보에서 중요한 부분을 선택적으로 고려하는 것이다.
•Attention 개념은 모델이  다른 modality를 가져도 이를 조정해서 학습이 가능하게 한다.
•대표적인 예 : Bahdanau attetion
•이 논문은 두개의 새로운 attention 기반의 방법을 소개한다
(1) Global approach  : all source words are attended
  • Bahdanau attetion과 비슷하지만, 구조가 더 간단하다.

(2) Local approach : only a subset of source words are considered at a time

  • Hard attention과 soft attention의 혼합 모델과 비슷하다.
  • Global model과 soft attention보다 계산연산이 더 적게 필요하며,  local attention이 거의 모든 부분에서 미분이 가능하다.
실험결과
•두가지 방법 모두 영어-독일어 번역과 관련된 WMT translation task에서 효과적 이였다
•특히 우리의 attention 모델은 non-attention 모델 보다 5.0 BLEU 만큼 성능이 좋았다.
•특히 영어->독일어 번역에서 sota 성능을 달성했는데, 이는 이전의 sota 모델보다 1.0 BLEU 이상 성능이 좋았다.

 

2. Neural Machine Translation

General  Neural Machine Translation

General  Neural Machine Translation’s image

•일반적인 Neural Machine Translation 모델(2015년 이전 모델들)에서 representation ′ s ′ 는 decoder의 hidden state를 초기화하기 위해 한번만 사용된다.
  • encoder의 결과가 decoder에 vector representation으로 입력 된다.
•하지만 Bahdanau attention 기법과 우리의 논문에서의 모델은 representation ′ s ′ 가 decoder의 전체 번역 과정에서 참여한다. 이러한 접근을 attention mechanism이라 한다.
  • s  implies a set of source hidden states which are consulted throughout the entire course of the translation process

Stacking LSTM

Stacking LSTM

•논문의 모델은 위의 그림처럼 stacking LSTM 아키텍처로 구성된다.
• paper’s training objective

 

3. Attention-based Models

기본적인 Attention 방법 설명

 

Global Attention

Global Attention’s architecture

Global Attention’s architecture

 

Global Attention 효과

context vector 계산

•최종적으로 A global context vector, c_t는 attention score로 계산된 a_t  와 all the source states의 weighted average으로 계산 되어진다.
•위의 context vector 계산은 Bahdanau attention과 비슷하지만  중요한 다른 점들이 있다.

(1) 연산량이 줄어든다.

 : Global attention은 encoder와 decoder 모두 top layers의 hidden states를 사용한다 하지만 Bahdanau attention은  bi-directional encoder에 있는 forward와 backward의 은닉상태 두개를 concatenate한다.

(2) Computation path가 좀 더 단순하다.

 : 계산 순서가 h_t→a_t→c_t →h ̃_t으로 이뤄지면서, tanh과 softmax의 distribution function를 통해 예측을 수행한다.

하지만 Bahdanau attentio은 h_(t-1)→a_t→c_t →h_t 다음에, deep-output과  maxout layer가 존재한다.

 

Local Attention 개념

•Global attention의 약점 : Source info의 모든 단어들을 attending해야 하기 때문에,  비효율적이다.

  =>계산연산이 많이 필요하다 특히 문단이나 문서 같은 긴 시퀀스를 번역할 때   비효율적이다.

•Local attention 모델은 Show, attend and tell: Neural image caption generation with visual attention 논문에서,  soft attention과 hard attention 사이의 tradeoff로부터 아이디어를 얻었다
•여기서 soft attention은 가중치가 source image의 모든 부분들에 대해서 softly하게 적용되는 global attention방법을 참조한다.
•hard attention은 attend를 할 때, 이미지의  한 부분만 선택한다. hard attention은 추론할 때 계산이 덜 복잡하지만, hard attention 모델은 미분이 불가능하고, 강화학습 or variance reductio과 같은 복잡한 기술을 요구한다.
•local attention은 context에서 small window에 초점을 맞추고 미분이 가능하도록 구성하였다.

 

 

Local  Attention 계산

Hidden states의 subset를 추출하기 위해서 모델은 aligned position, p_t 를 생성한다. 따라서 subset은 [p_t-D,p_t+D]와 같이 구성되며, D는 hyper-parameter이다. 벡터의 고정된 차원수는 2D+1이다.

 

(1) Monotonic alignment (local-m)

  • p_t = t 이다. 이는 target hidden state의 time step과 같다. Alignment vector 
  • a_t 는 다음과 같이 정의되어 진다.
  • 이후의 과정은 global attention의 context vector 계산과 똑같다.

 

 

(2) Predictive alignment (local-p)

  • alignment position를 예측하는 식을 구한다
  • Sigmoid의 결과로서  0 <〖 p〗_t< S 가 된다.
  • p_t 근처의 alignment position를 나타내기 위해서, Gaussian distribution을 적용한다.
  • 이후의 과정은 global attention의 context vector 계산과 똑같다.

 

Input-feeding approach   

•Alignment decisions 은 과거의 alignment info를 고려하면서 이뤄진다.
•즉 h ̃_t 는 다음 time step에 있는 inputs에 concatenated 된다.

 

4. Experiments

•영어와 독일어 양쪽 방향에서, WMT translation task에 대해 모델의 효과성을 평가한다.
•모델은 450만개의 sentence pair로 이뤄진 dataset 으로 학습이 이뤄진다. 이 중에서, 빈도 수로 자주 나온 단어 5만개만을 양쪽 언어에 대해서 vocabularies를 만든다.
•각 문장 pair에 대해서 단어 개수가 50 개 이상이 되지 않도록 한다.
•LSTM 모델은 4개의 layer를 가지고, 각각 1000개의 cell를 가진다. 또한, 단어 임베딩 차원은 1000이다
 
실험결과

  • 논문의 측정 지표로 사용된 BLEU는 기계 번역 결과가 정답 문장과 얼마나 유사한지 비교하여 번역에 대한 성능을 측정하는 방법입니다. 측정 기준은 n-gram에 기반합니다.
  • 구체적으로 BLEU 스코어는 번역 품질을 측정하기 위한 정량적 지수로 기계가 번역한 문장과 정답 문장 간의 정확도를 비교하여 측정하게 됩니다.
  • SOTA 모델의 BLEU는 21.6이다 논문의 NMT systems의 성능을 살펴보자. 논문의 개념들을 조금씩 추가할 수록 성능이 좋아지는 것을 알 수 있다.
  • Reverse는 source sentence를 뒤집었다고 생각하면 된다.
  • Global attention보다는 local attention이 성능이 더 좋다. P는 predictive를 뜻한다.
  • Unknow replacement 기법을 사용했다는 의미이다.
  • Ensemble 8 models은 다른 어텐션 접근들을 사용한 다른 모델들에 대해서 앙상블을 시도한 것이다.
Comments