일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 3d cad #인공지능 #resnet
- cyclegan #GAN
- 자연어처리 #glove #글로브 #glove vector #벡터 임베딩
- 딥러닝 #모멘텀 #momentum #핸즈온머신러닝 #하이퍼파라미터튜닝
- 파이썬 #알고리즘 #데크 #원형큐 #코딩테스트
- char-CNN #자연어처리 # 단어임베딩 #wordembedding #LSTM
- 배치 정규화 #batch normalization # 딥러닝 #머신러닝
- BERT #자연어처리
- 자연어처리 #question-answering #dynamic memory #attention
- 특이값분해 # SVD #머신러닝 #차원축소 # 인공지능
- 파이썬 #알고리즘 #코딩인터뷰 #리트코드 #DFS
- 딥러닝 #머신러닝 #AdaGrad
- PCA #주성분 분석 #머신러닝 #선형대수 #sklearn
- 자연어처리 #기계번역 #attention #global attention # local attention
- Today
- Total
누누와데이터
[논문 리뷰] Effective Approaches to Attention-based Neural Machine Translation 본문
[논문 리뷰] Effective Approaches to Attention-based Neural Machine Translation
happynunu 2022. 2. 11. 17:44Effective Approaches to Attention-based Neural Machine Translation는 attention 기법이 기계번역이 적용되기 시작하던 초창기에 이에 대한 성능을 높이는 방법을 소개한 논문이다. 2022년 현재는 self-attention에 기반한 transformer방법들이 기계번역 성능을 높이는 데, 주로 많이 쓰이지만 이 때 당시만 하더라도 encoder-decoder기반의 모델에서 attention을 접목시켜서 해결하는 것이 주된 방식이였던 것 같다.
논문에서는 Global approach 과 Local approach 두가지 방식을 소개하면서 Bahdanau attetion보다 성능이 좋으면서 연산과정은 더 간단함을 보이고 있다. 특히 Local approach 방식의 경우, window기반과 확률적 방식을 도입해서 성능을 높이면서 Global approach보다 attention연산이 더 간단하게 된 것이 인상적이였다. Local approach에 사용한 gaussian 확률적 방법은 논문에서 자세히 설명이 안돼서 아쉬웠는데 이에 대해서 추가적으로 공부하는 것이 필요할 것 같다.
1. Introduction
Neural Machine Translation
Attention mechanism
- Bahdanau attetion과 비슷하지만, 구조가 더 간단하다.
(2) Local approach : only a subset of source words are considered at a time
- Hard attention과 soft attention의 혼합 모델과 비슷하다.
- Global model과 soft attention보다 계산연산이 더 적게 필요하며, local attention이 거의 모든 부분에서 미분이 가능하다.
2. Neural Machine Translation
General Neural Machine Translation
- encoder의 결과가 decoder에 vector representation으로 입력 된다.
- s implies a set of source hidden states which are consulted throughout the entire course of the translation process
Stacking LSTM
3. Attention-based Models
기본적인 Attention 방법 설명
Global Attention
Global Attention’s architecture
Global Attention 효과
(1) 연산량이 줄어든다.
: Global attention은 encoder와 decoder 모두 top layers의 hidden states를 사용한다 하지만 Bahdanau attention은 bi-directional encoder에 있는 forward와 backward의 은닉상태 두개를 concatenate한다.
(2) Computation path가 좀 더 단순하다.
: 계산 순서가 h_t→a_t→c_t →h ̃_t으로 이뤄지면서, tanh과 softmax의 distribution function를 통해 예측을 수행한다.
하지만 Bahdanau attentio은 h_(t-1)→a_t→c_t →h_t 다음에, deep-output과 maxout layer가 존재한다.
Local Attention 개념
=>계산연산이 많이 필요하다 특히 문단이나 문서 같은 긴 시퀀스를 번역할 때 비효율적이다.
Local Attention 계산
Hidden states의 subset를 추출하기 위해서 모델은 aligned position, p_t 를 생성한다. 따라서 subset은 [p_t-D,p_t+D]와 같이 구성되며, D는 hyper-parameter이다. 벡터의 고정된 차원수는 2D+1이다.
(1) Monotonic alignment (local-m)
- p_t = t 이다. 이는 target hidden state의 time step과 같다. Alignment vector
- a_t 는 다음과 같이 정의되어 진다.
- 이후의 과정은 global attention의 context vector 계산과 똑같다.
(2) Predictive alignment (local-p)
- alignment position를 예측하는 식을 구한다
- Sigmoid의 결과로서 0 <〖 p〗_t< S 가 된다.
- p_t 근처의 alignment position를 나타내기 위해서, Gaussian distribution을 적용한다.
- 이후의 과정은 global attention의 context vector 계산과 똑같다.
Input-feeding approach
4. Experiments
-
논문의 측정 지표로 사용된 BLEU는 기계 번역 결과가 정답 문장과 얼마나 유사한지 비교하여 번역에 대한 성능을 측정하는 방법입니다. 측정 기준은 n-gram에 기반합니다.
- 구체적으로 BLEU 스코어는 번역 품질을 측정하기 위한 정량적 지수로 기계가 번역한 문장과 정답 문장 간의 정확도를 비교하여 측정하게 됩니다.
- SOTA 모델의 BLEU는 21.6이다 논문의 NMT systems의 성능을 살펴보자. 논문의 개념들을 조금씩 추가할 수록 성능이 좋아지는 것을 알 수 있다.
- Reverse는 source sentence를 뒤집었다고 생각하면 된다.
- Global attention보다는 local attention이 성능이 더 좋다. P는 predictive를 뜻한다.
- Unknow replacement 기법을 사용했다는 의미이다.
- Ensemble 8 models은 다른 어텐션 접근들을 사용한 다른 모델들에 대해서 앙상블을 시도한 것이다.