본문 바로가기
논문 리뷰

[논문 리뷰] Attention Is All You Need

by 곽정우 2024. 7. 8.

이 논문은 "Attention Is All You Need"이라는 제목의 논문입니다.

작성자는 Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 그리고 Ashishi Vaswani 이, 트랜스포머 구조를 처음 발표한 구글브레인의 논문이다.

 


Abstract

기존의 주요 시퀀스 변환 모델들은 복잡한 순환 신경망(RNN)이나 합성곱 신경망(CNN)을 기반으로 하며, 인코더와 디코더를 포함합니다. 최고 성능의 모델들은 인코더와 디코더를 attention mechanism을 통해 연결합니다. 논문은 이러한 복잡성을 제거하고, 오직 attention 메커니즘만을 사용한 새로운 간단한 네트워크 아키텍처인 Transformer를 제안합니다. 이 모델은 순환이나 합성곱을 완전히 없앴습니다.


주요 내용은 다음과 같습니다:

  • 연구진은 순환과 합성곱을 완전히 제거하고 오직 attention 메커니즘만을 사용하는 새로운 단순 네트워크 아키텍처인 "Transformer"를 제안합니다.
  • 기계 번역 실험 결과, 이 모델이 품질 면에서 우수하며 더 병렬화가 가능하고 훈련 시간이 크게 단축되었음을 보여줍니다.
  • WMT 2014 영어-독일어 번역 작업에서 28.4 BLEU 점수를 달성하여 기존 최고 결과를 2 BLEU 이상 개선했습니다.
  • WMT 2014 영어-프랑스어 번역 작업에서는 8개의 GPU로 3.5일 동안 훈련 후 41.8의 새로운 단일 모델 최고 BLEU 점수를 달성했습니다.
  • Transformer가 영어 구문 분석 작업에도 성공적으로 적용되어 다른 작업에도 잘 일반화됨을 보여줍니다.

요약하면, attention 메커니즘만을 사용한 Transformer 모델을 제안하고, 기계 번역 및 구문 분석 작업에서 우수한 성능과 효율성을 입증한 논문입니다.

 

1. Introduction

 

순환 신경망(RNN)의 한계와 새로운 Transformer 모델의 장점에 대해 설명

  • RNN, 특히 LSTM과 GRU는 시퀀스 모델링과 변환 문제에서 최첨단 접근법으로 사용되어 왔으나, 순차적 계산의 근본적인 제약이 있습니다.
  • attention 메커니즘은 시퀀스 모델링에서 중요한 역할을 하며, 입력이나 출력 시퀀스의 거리와 상관없이 의존성을 모델링할 수 있게 합니다.
  • 연구진은 순환을 사용하지 않고 전적으로 attention 메커니즘에 의존하는 새로운 모델 아키텍처인 Transformer를 제안합니다.
  • Transformer는 입력과 출력 사이의 전역적 의존성을 파악하며, 훨씬 더 많은 병렬화를 가능하게 합니다.
  • 이 새로운 모델은 8개의 P100 GPU에서 단 12시간 훈련 후 번역 품질에서 새로운 최고 수준에 도달할 수 있습니다.

 

2. Background

Transformer 모델의 배경과 self-attention 메커니즘에 대해 설명

  • 순차적 계산을 줄이려는 목표는 Extended Neural GPU, ByteNet, ConvS2S와 같은 여러 모델의 기반이 되었으나, 이들 모델에서는 거리에 따라 연산 수가 증가하는 한계가 있었습니다.
  • Transformer는 이를 일정한 수의 연산으로 줄였지만, attention 가중치 평균을 사용함으로써 해상도 감소라는 비용이 발생합니다.
  • self-attention는 단일 시퀀스 내의 서로 다른 위치를 연관시켜 시퀀스의 표현을 계산하는 메커니즘으로, 다양한 자연어 처리 작업에서 성공적으로 사용되었습니다.
  • 종단간 메모리 네트워크는 순환적 attention 메커니즘을 사용하여 간단한 언어 작업에서 좋은 성능을 보였습니다.
  • Transformer는 RNN이나 합성곱을 사용하지 않고 전적으로 self-attention에 의존하여 입력과 출력의 표현을 계산하는 최초의 변환 모델입니다.

 

3. Model Architecture

 

신경망 시퀀스 변환 모델의 일반적인 구조와 Transformer 모델의 특징을 설명

  • 일반적인 신경망 시퀀스 변환 모델의 구조
    • 대부분의 경쟁력 있는 모델들은 인코더-디코더 구조를 가짐
    • 인코더: 입력 시퀀스 (x1, ..., xn)를 연속적 표현 z = (z1, ..., zn)로 매핑
    • 디코더: z를 받아 출력 시퀀스 (y1, ..., ym)를 생성
  • 디코더의 작동 방식
    • 한 번에 하나의 요소씩 생성
    • 자기회귀적(auto-regressive) 특성
    • 이전에 생성된 심볼들을 다음 심볼 생성 시 추가 입력으로 사용

Transformer 모델

Transformer는 이러한 전체적인 아키텍처를 따르며, 인코더와 디코더 모두에 대해 Self-Attention와 Point-Wise Fully Connected Layers 사용합니다. 이는 각각 그림 의 왼쪽(인코더) 과 오른쪽(디코더) 부분에 나타나 있습니다.

 

 

3-1. Encoder and Decoder Stacks

Transformer 모델의 인코더와 디코더의 구조를 설명

  • 인코더 구조:
    • 6개의 동일한 층으로 구성됩니다.
    • 각 층은 다중 헤드 self-attention 메커니즘과 피드포워드 네트워크로 구성됩니다.
    • 잔차 연결과 층 정규화를 사용하여 출력 형식은 LayerNorm(x + Sublayer(x))입니다.
  • 디코더 구조:
    • 인코더와 마찬가지로 6개의 동일한 층으로 구성됩니다.
    • 각 층은 multi-head self-attention 메커니즘과 position wise fully connected feed-forward network 가 포함됩니다.
    • 인코더 출력에 대한 self-attention sub-layer 추가로 포함됩니다.
    • self-attention 서브 층에 마스킹을 적용하여 후속 위치에 대해 attention 받지 않도록 합니다.

3-2. Attention

  • attention  함수의 기본 구조
    • 입력:
      • 쿼리(query) 벡터
      • 키(key)-값(value) 쌍의 집합
    • 출력:
      • 벡터
  • attention  함수의 작동 방식
    • 출력 계산 방법:
      • 값(values)의 가중 합(weighted sum)으로 계산됨
    • 가중치 계산 방법:
      • 쿼리와 해당하는 키 사이의 호환성 함수(compatibility function)로 계산됨

 

3-2-1. Scaled Dot-Product Attention

Scaled Dot-Product Attention

 

  • 입력:
    • 쿼리(Q): 차원 dk
    • 키(K): 차원 dk
    • 값(V): 차원 dv
  • 계산 과정:
    • 쿼리와 모든 키의 내적(dot product)을 계산합니다.
    • 각 내적을 √dk로 나누어 스케일링합니다.
    • 소프트맥스 함수를 적용하여 값에 대한 가중치를 얻습니다.
  • 실제 구현:
    • 쿼리(Q), 키(K), 값(V)를 각각 행렬 Q, K, V로 묶어 처리합니다.
    • 출력 행렬은 다음과 같이 계산됩니다:

다른 attention와의 비교

  • 가산 attention (additive attention)
    • 피드포워드 네트워크를 사용하여 호환성 함수를 계산합니다.
    • 이론적으로 복잡성은 유사하지만 실제 구현에서 더 느릴 수 있습니다.
  • 내적 attention (dot-product attention)
    • Scaled Dot-Product Attention과 거의 동일하지만 스케일링을 적용하지 않습니다.
    • 행렬 곱셈 최적화를 사용하여 더 빠르고 공간 효율적입니다.

3-2-2. Multi-Head Attention

Multi-Head Attention consists of several attention layers running in parallel

multi-head attention의 기본 개념:

  • single attention  함수 대신 multi attention  의 함수를 병렬로 수행합니다.
  • 각각의 attention 함수에 대해 쿼리(Q), 키(K), 값(V)을 h번 선형 투영하여 사용합니다.

multi-head attention 의 장점:

  • 모델이 서로 다른 위치에서 다양한 표현 부분 공간의 정보를 동시에 고려할 수 있습니다.

multi-head attention 의 수학적 표현: 

투영 매개변수 행렬:

구현 세부사항:

  • 사용된 헤드 수: h=8
  • 각 헤드의 차원: dk=dv=dmodel/h=64
  • 전체 계산 비용: self multi-head attention와 유사하나, 각 head의 차원이 줄어들었기 때문에 계산 비용이 줄어듭니다.

3-2-3.  Applications of Attention in our Model

Transformer 모델에서 Multi-Head Attentiond의 세 가지 다른 방식으로 사용되는 것을 설명

  • 인코더-디코더 attention (Encoder-Decoder Attention)
    • 위치: 디코더의 인코더-디코더 attention layer
    • 특징:
      • 쿼리(Query): 이전 디코더 층에서 옴
      • 키(Key)와 값(Value): 인코더의 출력에서 옴
    • 기능:
      • 디코더의 모든 위치가 입력 시퀀스의 모든 위치에 attention을 줄 수 있음
      • 일반적인 시퀀스-투-시퀀스 모델의 인코더-디코더 attention 메커니즘과 유사
  • 인코더의 자기 attention (Self-Attention)
    • 위치: 인코더의 self-attention층
    • 특징:
      • 쿼리, 키, 값 모두 같은 곳(이전 층의 출력)에서 옴
    • 기능:
      • 인코더의 각 위치가 이전 층의 모든 위치에 attention을 줄 수 있음
  • 디코더의 자기 attention (Self-Attention)
    • 위치: 디코더의 self-attention 층
    • 특징:
      • 디코더의 각 위치가 자신을 포함한 이전 모든 위치에 attention을 줄 수 있음
    • 제한사항:
      • 자기회귀적 특성을 유지하기 위해 왼쪽으로의 정보 흐름을 방지
    • 구현 방법:
      • scaled dot-product attention 내에서 마스킹 사용
      • 불법적인 연결에 해당하는 소프트맥스 입력 값을 -∞로 설정

이 구조는 Transformer 모델에서 multi head attention가 어떻게 다양하게 적용되는지 명확하게 보여줍니다. 특히 디코더의 self- attention 에서는 마스킹을 통해 미래 정보의 유출을 방지합니다.

3-3. Position-wise Feed-Forward Networks

Transformer 모델의 인코더와 디코더 층에 포함된 위치별 피드포워드 네트워크(Position-wise Feed-Forward Network)에 대해 설명

 

피드포워드 네트워크의 위치:

  • 인코더와 디코더의 각 층에 포함됩니다.
  • attention sub-layers 외에 추가로 존재합니다.

피드포워드 네트워크의 특징:

  • 각 위치에 대해 독립적이고 동일하게 적용됩니다.
  • 두 개의 선형 변환과 그 사이의 ReLU 활성화 함수로 구성됩니다.

수학적 표현:

  • 여기서 W1, W2는 가중치 행렬을, b1, b2는 편향 벡터를 나타냅니다.

구현 세부사항:

  • 선형 변환은 모든 위치에서 동일하지만, 층마다 다른 파라미터를 사용합니다.
  • 커널 크기가 1인 두 개의 합성곱으로도 설명할 수 있습니다.
  • 입력과 출력의 차원은 dmodel = 512이며, 내부 층의 차원은 dff = 2048입니다.

3-4. Embeddings and Softmax

Transformer 모델의 임베딩 레이어와 출력 레이어에 대해 설명

 

임베딩 레이어

  • 목적:
    • 입력 토큰을 벡터로 변환
    • 출력 토큰을 벡터로 변환
  • 특징:
    • 학습된 임베딩 사용
    • 변환된 벡터의 차원: dmodel

출력 레이어

  • 구성:
    • 학습된 선형 변환
    • 소프트맥스 함수
  • 목적:
    • 디코더 출력을 다음 토큰 확률로 변환
  • 가중치 공유:
    • 공유되는 가중치 행렬:
      • 두 임베딩 레이어 (입력과 출력)
      • 소프트맥스 이전의 선형 변환

임베딩 레이어의 추가 처리

  • 가중치에 √dmodel을 곱함

이 구조는 Transformer 모델에서 임베딩과 출력 처리가 어떻게 이루어지는지 보여줍니다.

3-5. Positional Encoding

Transformer 모델에서 사용되는 위치 인코딩(Positional Encoding)에 대한 설명

 

  • 위치 인코딩의 필요성
    • Transformer 모델은 순환(recurrence)이나 합성(convolution)을 사용하지 않습니다.
    • 따라서 시퀀스의 순서 정보를 모델에 주입하기 위해 위치 인코딩이 필수적입니다.
  • 위치 인코딩의 적용
    • 인코더와 디코더 스택의 하단에서 입력 임베딩에 추가됩니다.
    • 임베딩과 동일한 차원(dmodel)을 가집니다.
    • 임베딩과 위치 인코딩을 더하여 사용합니다.
  • 사용된 위치 인코딩 함수
    • 사인과 코사인 함수를 사용합니다.
    • 수식:

  • 여기서 pos는 위치, i는 차원을 나타냅니다.
  • 위치 인코딩의 특징
    • 각 차원이 하나의 사인파(sinusoid)에 대응합니다.
    • 파장이 2π에서 10000·2π까지 기하급수적으로 증가합니다.
  • 선택 이유
    • 상대적 위치에 따른 attention를 쉽게 학습할 수 있을 것으로 가정했습니다.
    • 고정된 오프셋 k에 대해 PE(pos+k)가 PE(pos)의 선형 함수로 표현될 수 있습니다.
  • 실험 결과
    • 학습된 위치 임베딩과 비교 실험을 진행했습니다.
    • 두 방법이 거의 동일한 결과를 생성했습니다.
    • 사인 함수 기반 위치 인코딩을 선택한 이유는 모델이 훈련 중 접한 시퀀스 길이보다 더 긴 시퀀스에 대해 외삽할 수 있는 가능성을 고려했기 때문입니다.

Transformer 모델에서 위치 정보를 어떻게 처리하는지, 그리고 왜 특정 위치 인코딩 방법을 선택했는지 보여줍니다.

 

4. Why Self-Attention

self-attention layer를 순환 (recurrent) 및 합성곱(convolutional) 층과 비교합니다.

 

 

  • 비교 대상
    • 가변 길이 시퀀스 (x1,...,xn)을 동일 길이 시퀀스 (z1,...,zn)로 매핑하는 층들
  • 비교 기준
    • 층당 총 계산 복잡도: self-attention는 상수 개의 순차 연산으로 모든 위치를 연결하며, 시퀀스 길이 이 표현 차원 d보다 작을 때 순환 층보다 빠릅니다.
    • 병렬화 가능한 계산량: 최소한의 순차 연산만 필요로 하며, 병렬화가 매우 효율적입니다.
    • 네트워크 내 장거리 의존성 간의 경로 길이: 입력과 출력 위치 사이의 경로 길이를 짧게 유지하여 장거리 의존성 학습이 용이합니다.
  • self-attention  층의 특징
    • 모든 위치를 상수 개의 순차 연산으로 연결합니다.
    • 계산 복잡도는 시퀀스 길이 nn이 표현 차원 dd보다 작을 때 순환 층보다 빠릅니다.
    • 매우 긴 시퀀스에 대해서는 입력의 일부 범위 rr만 고려하는 방법이 제안되었습니다.
  • 합성곱 층과의 비교
    • 단일 합성곱 층은 모든 입출력 위치 쌍을 연결하지 못하며, 여러 층이 필요합니다 (O(n/k) 또는 O(logk(n))).
    • 일반적으로 순환 층보다 계산 비용이 높습니다.
    • 분리 가능한 합성곱은 복잡도를 크게 감소시킵니다 (O(k·n·d + n·d^2)).
  • self-attention의 추가 이점
    • 더 해석 가능한 모델을 생성할 수 있습니다.
    • individual attention 헤드가 다른 작업을 수행하는 것을 학습합니다.
    • 문장의 구문 및 의미 구조와 관련된 동작을 보여줍니다.
  • 결론
    • self-attention 층은 특정 조건에서 순환 및 합성곱 층보다 효율적입니다.
    • 신경망 경로의 길이가 장거리 의존성 학습과 예측 정확도에 중요한 역할을 합니다.
    • 모델의 해석 가능성을 높일 수 있습니다.

 

5 . Training

이 섹션에서는 Transformer 모델의 훈련 방식에 대한 설명하겠습니다.

5-1. Training Data and Batching

Transformer 모델의 훈련 데이터와 전처리 과정에 대해 설명합니다.

  • 영어-독일어 번역 작업
    • 데이터셋: WMT 2014 영어-독일어
    • 데이터 크기: 약 4.5백만 문장 쌍
    • 인코딩 방식: 바이트-페어 인코딩 (Byte-Pair Encoding)
    • 어휘 크기: 약 37,000 토큰 (소스와 타겟 공유)
  • 영어-프랑스어 번역 작업
    • 데이터셋: WMT 2014 영어-프랑스어
    • 데이터 크기: 36백만 문장 쌍 (영어-독일어보다 훨씬 큰 데이터셋)
    • 인코딩 방식: 워드피스(word-piece) 분할
    • 어휘 크기: 32,000 워드피스
  • 훈련 배치 구성
    • 비슷한 시퀀스 길이의 문장 쌍들을 함께 배치
    • 각 훈련 배치 구성: 약 25,000개의 소스 토큰과 약 25,000개의 타겟 토큰

5-2. Hardware and Schedule

Transformer 모델의 훈련 환경과 과정에 대해 설명합니다.

  • 훈련 하드웨어
    • 사용 장비: 1대의 머신
    • GPU: 8개의 NVIDIA P100 GPU
  • 기본 모델(Base Model) 훈련
    • 단계별 훈련 시간: 약 0.4초
    • 총 훈련 단계: 100,000 단계
    • 총 훈련 시간: 12시간
    • 하이퍼파라미터: 논문에 기술된 대로 사용
  • 대형 모델(Big Model) 훈련
    • 단계별 훈련 시간: 1.0초
    • 총 훈련 단계: 300,000 단계
    • 총 훈련 시간: 3.5일 (84시간)
    • 세부 사항: 표 3의 맨 아래 줄에 설명됨
  • 비교
    • 대형 모델은 기본 모델에 비해:
      • 단계별 훈련 시간이 2.5배 길음
      • 총 훈련 단계가 3배 많음
      • 총 훈련 시간이 7배 길음

Transformer 모델의 두 가지 버전(기본 모델과 대형 모델)에 대한 훈련 과정의 차이를 명확히 보여줍니다.

5-3. Optimizer

Transformer 모델의 학습률(learning rate) 스케줄링과 최적화 방법에 대해 설명합니다.

  • 최적화기
    • 알고리즘: Adam 최적화기 [20]
    • 매개변수: β1 = 0.9, β2 = 0.98, ϵ = 10−9

학습률 스케줄

  • 수식:

  • 설명:
    • 처음 warmup_steps 개의 훈련 단계 동안 학습률을 선형적으로 증가시킵니다.
    • 그 이후에는 훈련 단계 수의 역 제곱근에 비례하여 학습률을 감소시킵니다.
  • 사용된 매개변수:
    • dmodel 모델의 차원
    • warmup_steps = 4000

Transformer 모델의 학습 과정에서 사용된 세밀한 학습률 조정 전략을 보여줍니다.

5-4. Regularization

Transformer 모델 훈련 중 사용된 세 가지 정규화(regularization) 기법에 대해 설명합니다.

  • 잔 드롭아웃 (Residual Dropout):
    • 적용 위치:
      • 각 서브층의 출력
      • 임베딩과 위치 인코딩의 합
    • 적용 시점: 서브층 입력에 더해지고 정규화되기 전
    • 적용 범위: 인코더와 디코더 스택 모두
    • 드롭아웃 비율: 기본 모델에서는 Pdrop=0.1P_{\text{drop}} = 0.1 사용
  • 레이블 스무딩 (Label Smoothing):
    • 매개변수: 스무딩  εls = 0.1
    • 효과:
      • 퍼플렉시티(perplexity) 증가 (모델이 더 불확실해짐)
      • 정확도와 BLEU 점수 향상

Transformer 모델의 훈련 과정에서 사용된 정규화 기법들을 보여줍니다.

 

6. Results

6-1. Machine Translation

Transformer 모델의 성능 평가 결과를 설명합니다.

  • 영어-독일어 번역 작업
    • 모델: Big 트랜스포머 모델 (표 2의 Transformer (big))
    • 성과: 이전 최고 성능 모델(앙상블 포함)을 2.0 BLEU 이상 초과하여 새로운 최고 BLEU 점수 28.4 달성
    • 모델 구성: 표 3의 하단 라인에 나열됨
    • 훈련 시간: 8개의 P100 GPU에서 3.5일 소요
    • 기본 모델(Base model): 더 낮은 훈련 비용으로 모든 이전 출판 모델과 앙상블을 능가함
  • 영어-프랑스어 번역 작업
    • 모델: Big 트랜스포머 모델
    • 성과: BLEU 점수 41.0으로 이전 모든 단일 모델을 능가함
    • 훈련 비용: 이전 최고 모델의 1/4 미만
    • 드롭아웃 비율: Pdrop = 0.1 (기존 0.3 대신 사용)
  • 훈련 및 추론 세부사항
    • 기본 모델: 마지막 5개의 체크포인트를 평균하여 단일 모델 생성 (10분 간격으로 작성됨)
    • Big 모델: 마지막 20개의 체크포인트를 평균하여 사용
    • 빔 서치: 빔 크기 4 및 길이 패널티 α = 0.6
    • 최대 출력 길이: 입력 길이 + 50으로 설정, 가능한 경우 조기 종료
  • 성능 비
    • Table: 모델 아키텍처와 번역 품질 및 훈련 비용 비교
    • 플로팅 포인트 연산: 훈련 시간, 사용된 GPU 수, 각 GPU의 단일 정밀도 플로팅 포인트 용량을 곱하여 모델 훈련에 사용된 플로팅 포인트 연산 수 추정

 

 

Transformer 모델이 기존 모델들을 크게 능가하는 성능을 보여주면서도 훈련 비용은 상대적으로 적다는 점을 강조하고 있습니다.

6-2. Model Variations

Transformer 모델의 다양한 구성 요소의 중요성을 평가하기 위한 실험 결과를 설명합니다.

  • 평가 방법
    • 평가 대상: Transformer 모델의 다양한 구성 요소
    • 작업: 영어-독일어 번역 (개발 세트: newstest2013)
    • 검색 방법: 빔 탐색 (체크포인트 평균화 없이)
    • 결과: 아래 표에 제시
  • 실험 결과 요약
    • 주요 구성 요소 변경 (A행):
      • attention 헤드 수와 attention  키 및 값의 차원을 변경
      • 계산량은 동일하게 유지
      • self head attention 는 최적 설정보다 0.9 BLEU 낮음
      • 너무 많은 헤드 수 사용 시 성능 저하
    • attention   키 크기 감소 (B행):
      • attention  키 크기 dk 감소는 모델 품질에 악영향
      • 호환성 결정이 쉽지 않음을 시사
      • 내적(dot product)보다 더 정교한 호환성 함수가 유리할 수 있음
    • 모델 크기와 드롭아웃 (C행과 D행):
      • 큰 모델이 더 우수한 성능을 보임 
      • 드롭아웃이 과적합 방지에 매우 유용함
    • 위치 인코딩 (E행):
      • 사인 함수 기반 위치 인코딩을 학습된 위치 임베딩으로 대체
      • 기본 모델과 거의 동일한 결과
  • 주요 시사점
    • attention  메커니즘의 구조(헤드 수, 키/값 차원)가 성능에 중요한 영향을 미침
    • 모델 크기와 정규화 기법(드롭아웃)이 성능 향상에 중요
    • 위치 정보 인코딩 방식은 사인파 함수나 학습된 임베딩 모두 비슷한 효과

Transformer 모델의 다양한 구성 요소가 성능에 미치는 영향을 체계적으로 분석한 결과를 보여줍니다.

6-3. English Constituency Parsing

Transformer 모델을 영어 구문 분석(English constituency parsing) 작업에 적용한 실험 결과를 설명합니다.

  • 실험 목적
    • Transformer 모델의 다른 작업으로의 일반화 능력 평가
  • 영어 구문 분석 작업의 특징
    • 강한 구조적 제약이 있는 출력
    • 입력보다 상당히 긴 출력
    • 소규모 데이터에서 RNN 시퀀스-투-시퀀스 모델이 최고 성능을 달성하지 못함
  • 실험 설정
    • 모델: 4층 Transformer (dmodel = 1024)
    • 데이터셋:
      • WSJ만 사용: Penn Treebank의 Wall Street Journal 부분 (약 40K 문장)
      • 반지도 학습: 추가로 high-confidence와 BerkleyParser 코퍼스 사용 (약 17M 문장)
    • 어휘 크기:
      • WSJ만 사용: 16K 토큰
      • 준지도 학습: 32K 토큰
  • 하이퍼파라미터 조정
    • 개발 세트(Section 22)에서 소수의 실험만 수행
    • 조정된 파라미터: 드롭아웃, attention 메커니즘 및 잔여 드롭아웃, 학습률, 빔 크기
    • 나머지 파라미터: 영어-독일어 기본 번역 모델과 동일하게 유지
  • 추론 설정
    • 최대 출력 길이: 입력 길이 + 300
    • 빔 크기: 21
    • α = 0.3 (WSJ만 사용 및 반반지도 학습 모두)
  • 실험 결과 (Table 참조)
    • 작업별 튜닝 없이도 Transformer 모델이 뛰어난 성능을 보임
    • Recurrent Neural Network Grammar를 제외한 모든 이전 모델보다 우수한 결과
    • WSJ 40K 문장만으로 훈련해도 BerkeleyParser보다 우수한 성능
  • 주요 시사점
    • Transformer 모델이 구문 분석과 같은 다른 작업에도 잘 일반화됨
    • 소규모 데이터에서도 RNN 시퀀스-투-시퀀스 모델보다 우수한 성능
    • 특별한 작업별 조정 없이도 높은 성능 달성 가능

Transformer 모델이 기계 번역 외의 작업, 특히 구조화된 출력이 필요한 구문 분석 작업에서도 뛰어난 성능을 보인다는 것을 강조합니다.

 

7. Conclusion

Transformer 모델에 대한 연구의 결론 부분

  • 번역 작업 성능
    • 훈련 속도: Transformer는 순환 층이나 합성곱 층 기반 아키텍처보다 훈련 속도가 훨씬 빠릅니다.
    • WMT 2014 영어-독일어 번역 작업: 새로운 최고 성능 달성, 이전에 보고된 모든 앙상블을 능가합니다.
    • WMT 2014 영어-프랑스어 번역 작업: 새로운 최고 성능 달성.
  • 향후 계획
    • 다른 작업으로의 확장
    • 텍스트 외 입력 및 출력 modalities  : Transformer를 텍스트 외의 입력 및 출력 modalities (이미지, 오디오, 비디오 등) 문제로 확장할 계획이다.
    • 지역적, 제한된 attention  메커니즘: 대규모 입출력을 효율적으로 처리하기 위해 지역적, 제한된 attention 메커니즘을 연구한다.
    • 생성 과정의 순차성 감소: 생성 과정에서 순차적인 처리를 줄이는 것을 목표로 한다

Reference

논문 출저: Attention Is All You Need