0. 리뷰 (Review)
Attention is All you need를 기반으로한 Transformer가 세상을 변화시키고 있다.
이미 많은 일자리들이 완전 대체는 아니지만 자체 효율화가 되고 있고, 엔비디아나 OpenAI와 같은 신흥 강자들이 기존 공룡IT기업들을 집어 삼키려고 하고 있다.
Transformer는 기존의 RNN을 기반으로 변화 발전시키려던 LSTM 등과는 전혀 다른 방식으로 접근한다. 개인적인 의견이지만 병렬적으로 Self-Dependency 를 가지고 간다는 점에서 기존의 NN 모델보다 오히려 Forecasting 모델에 더 가까워보이기도 한다.
| 구분 | LSTM / RNN | Attention / Transformer |
| 자기 의존성 방식 | 이전 Hidden State만 참조 (과거 1개 시점) | 현재 자기 자신 + 모든 Token을 참조 |
| 정보 전달 방식 | 순차적 전달 (이전 → 현재) | 병렬적, 자기 자신을 포함한 모든 위치 참조 |
| 자기참조의 구현 | Hidden State가 그 자체가 메모리 역할 | Query, Key, Value 모두 자기 자신 포함 |
| 참조 범위 | 바로 직전 시점 중심 (Recurrence) | 모든 시점 → 자기 자신도 포함 |
개인적으로 Transformer의 핵심은 '장기기억'과 '병렬화'가 아닐까한다. '장기기억'으로 NN의 레이어가 많아지면서 생길 수 있는 Gradient 소실, 폭발에 대한 이슈가 해결 될 수 있었고, '병렬화' 때문에 효과적인 pre-trained 모델이 나올 수 있었다. 이는 곧 개인서버나 컴퓨터에서 거대 모델을 돌려야만 하는 시대는 끝남을 의미했다. BERT도 충분히 효과적이었지만, 결국 사람으로치면 'Reading' 능력의 Encoding 기반의 모델이었기 때문에 Writing에 강한 Decoding 모델인 GPT가 더 효율적으로 임팩트를 주었다고 생각한다. 특히 Scaling Law (Kaplan et al., 2020) 를 바탕으로 커질수록 좋아지는 모델이라는게 입증되기 시작했고, 해당 논문 이후 폭발적으로 Transformer는 더 성장하기 시작했다.
결국 이런 디코딩 능력은 생성형(Generative) 이라는 이름으로 현재까지 활발히 논의 및 발전 중이다. 다만 이 Transformer 알고리즘 기반의 구조가 어디까지 갈 수 있을지는 의문이 든다. 특히 파인튜닝을 하기 어려운 대부분의 기업과 개인은 현재 RAG 등의 구조를 이용해야하는데 External Memory, Long-term Memory System 등을 이용해도 개인이나 인스트럭션, 프롬프트 레벨에서의 기억력은 개선되기 다소 어려워보이기도 한다. 이를 분할하고 구조화하기 위해 Agent 등이 나오고 있고, 충분히 효과적이라는 생각도 든다.
다만 이미 충분히 검증된 데이터들의 학습은 완료되었고, 인간이 자체적으로 생산하는 글과 코드의 양은 현저히 줄고 있으며, 현재는 더 많은 데이터를 학습한다고 성능이 선형으로 좋아지지도 않고 있다. GPU에 대한 비용 이슈, 게임체인징에 BM으로 탄생 가능 여부 등 여러 난관도 존재하며, 2024년 여름 출시를 앞뒀던 GPT-5가 차일피일 미뤄지고 있는 것도 아마 비슷한 이유라고 생각된다.
1. 개요 (Overview)
- 제목: Attention Is All You Need
- 저자: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, et al.
- 발표 학회: NeurIPS 2017
- 의의:
기존의 자연어 처리(NLP) 모델들이 가지고 있던 순차 처리(RNN 기반)의 한계를 극복하고,
Attention 메커니즘만으로 시퀀스 모델링을 가능하게 한 첫 번째 모델.
이 논문을 통해 Transformer 아키텍처가 제안되었고, 이후 BERT, GPT, T5 등 모든 주요 NLP 모델의 기반이 되었다.
Attention Is All You Need
The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new
arxiv.org
2. 기존 방식(RNN/Seq2Seq)과의 차이점
| 구분 | RNN / Seq2Seq | Transformer |
| 처리 방식 | 순차 처리 (Sequential) | 병렬 처리 (Parallel) |
| 긴 시퀀스 문제 | Gradient Vanishing, 정보 손실 | Attention으로 전체 시퀀스 참조 |
| 연산 속도 | 느림 (순차적, GPU 병렬화 어려움) | 빠름 (완전 병렬화 가능) |
| 대표 기술 | LSTM, GRU, Attention 추가 | Multi-Head Attention, Positional Encoding |
3. Transformer 아키텍처 핵심 구성
1) Scaled Dot-Product Attention

2) Multi-Head Attention
- Attention을 여러 번 (Head 수만큼) 병렬로 계산
- 서로 다른 서브스페이스에서 정보를 학습 → 다양한 관계 포착 가능
- 결과를 다시 합쳐 하나의 Attention Output 생성
3) Positional Encoding
- RNN처럼 순서를 넘겨주지 않기 때문에,
시퀀스의 순서 정보를 사인과 코사인 함수를 이용해 입력에 추가 - 위치 정보를 벡터화하여 Attention이 이를 인식할 수 있게 만듦
4) Encoder-Decoder 구조
- Encoder: 입력 시퀀스를 인코딩 (Self-Attention + Feed Forward Layers)
- Decoder: 이전 출력과 Encoder 출력을 참조해 디코딩 (Masked Self-Attention + Encoder-Decoder Attention)
- 전체 구조:
- Encoder N개 layer stack
- Decoder N개 layer stack
- Attention은 Encoder 내, Decoder 내, 그리고 Encoder-Decoder 사이에서 모두 사용됨
4. Transformer의 강점과 한계
| 강점 | 한계 |
| 병렬화 가능 → 학습 속도 빠름 | 긴 시퀀스 처리 시 메모리 사용량 큼 |
| 긴 시퀀스에서도 정보 손실 적음 | 매우 긴 문장에서는 Long-Range Dependency에 부담 |
| Self-Attention으로 모든 Token 간 관계 파악 | Position Encoding이 외부적 추가 요소 |
5. 이후 연구로의 확장
- BERT (2018): Encoder만 사용해 Pre-trained Language Model
- GPT 시리즈: Decoder 기반의 Generative Language Model
- T5, BART: Encoder-Decoder 통합 기반 모델
- Vision Transformer (ViT): 이미지 분야로 Transformer 확장
- Longformer, Performer: Attention 구조 최적화 → 긴 문장 처리 개선
'Paper Review' 카테고리의 다른 글
| PHP Webshell Detection - Opcode Processing (0) | 2025.08.05 |
|---|