Attention前夜 — RNNの限界
2014年以前、機械翻訳の主流は RNN(Recurrent Neural Network、再帰型ニューラルネット) でした。RNNは文章を左から右へ1単語ずつ読みながら、内部の「記憶状態」を更新していくモデルです。
しかしRNNには2つの根本的な弱点がありました。
- 勾配消失問題:長い文章を読むと、文頭の情報が文末に届くまでに記憶から消えてしまう
- 並列処理できない:t番目の単語の処理はt-1番目が終わるまで始められず、GPUの恩恵を受けられない
2014年、Googleの Sutskever らが発表した Seq2Seq(Sequence-to-Sequence) モデルは、これを2つのRNNで解決しようとしました。1つ目のRNN(Encoder)が原文を読み込んで 固定長の1つのベクトル に圧縮し、2つ目のRNN(Decoder)がそのベクトルから翻訳文を生成する、というアイデアです。
graph LR A[原文\nI love AI] --> B[Encoder RNN] B --> C[固定長ベクトル\n← ボトルネック!] C --> D[Decoder RNN] D --> E[訳文\n私はAIが好きだ] style A fill:#3b82f6,stroke:#1d4ed8,color:#fff style B fill:#8b5cf6,stroke:#6d28d9,color:#fff style C fill:#ef4444,stroke:#b91c1c,color:#fff style D fill:#8b5cf6,stroke:#6d28d9,color:#fff style E fill:#3b82f6,stroke:#1d4ed8,color:#fff
ところがこの方式は、文が10〜20単語を超えると性能が急激に落ちることがすぐに判明します。「固定長ベクトルに、どんなに長い文の意味も詰め込まないといけない」という構造的なボトルネックです。
Bahdanauの閃き — 翻訳者の視線
この問題に挑んだのが、モントリオール大学の博士課程学生 Dzmitry Bahdanau(ベラルーシ出身)でした。指導教官は2018年にチューリング賞を受賞する Yoshua Bengio。
Bahdanauは自分の中学校時代の英語翻訳の経験から、こんなことを考えました。
「翻訳しているとき、視線は原文と訳文の間を行ったり来たりする。デコーダRNNにも、原文のどこにカーソルを置くかを学習させればいい」
——つまり、固定長ベクトルに圧縮するのを諦め、デコーダが 各時点で原文のどの単語を見るかを動的に選ぶ 仕組みを足したのです。論文は2014年9月1日にarXivに投稿されました。タイトルは「Neural Machine Translation by Jointly Learning to Align and Translate」。
最初の試みから素晴らしくうまく動いた、とBahdanauは振り返っています。Googleの巨大なリソース(8GPUのLSTM)に先を越されまいと、急いでarXivに投稿したそうです。
Luong(2015)— 内積版Attentionの登場
Bahdanau Attentionは「加算型(Additive)」と呼ばれる方式で、QとKを足してから別のニューラルネットに通すものでした。1年後の2015年、Stanford NLPの Thang Luong らが 「Effective Approaches to Attention-based Neural Machine Translation」 を発表。ここで 内積型(Multiplicative / Dot-product)Attention が登場します。
内積型のほうが計算がシンプルで高速。これが後にTransformerの Scaled Dot-Product Attention の直接の祖先になります。
2017年6月 — Attention Is All You Need
そして運命の2017年6月12日。Google Brainの8人の研究者が、衝撃的なタイトルの論文をarXivに投稿します。
Attention Is All You Need
彼らの主張はシンプルかつ過激でした。「RNNを完全に捨てよう。Self-Attentionだけで翻訳ができる」。それまでAttentionはRNNの補助役だったのに、主役になれると宣言したのです。
| 観点 | RNN/LSTM(〜2017) | Transformer(2017〜) |
|---|---|---|
| 処理方式 | 逐次処理(1単語ずつ) | 完全並列(全単語を同時に) |
| 長距離依存 | 弱い(情報が薄まる) | 強い(任意の2単語が1ホップで繋がる) |
| GPU利用 | 効率悪い | 極めて効率的 |
| 訓練時間 | 数週間 | 8GPU × 約12時間 |
| 英独翻訳BLEU | 24.6 | 28.4(SOTA) |
Transformer以降 — LLM時代の幕開け
Transformer誕生の翌年2018年、その上にTransformerを積み上げたモデルが次々と登場します。
Bahdanau Attention 誕生
Seq2seq+Attentionで機械翻訳を改革(Bahdanau, Cho, Bengio)
Luong Attention
内積型Attentionが登場、計算効率が向上(Luong, Pham, Manning)
Transformer 誕生
「Attention Is All You Need」(Vaswani et al., Google Brain)
GPT-1
OpenAI、Decoder-only Transformerで言語モデル事前学習
BERT
Google、Encoder-only Transformer、双方向文脈理解
GPT-3
1750億パラメータ、Few-shot学習を発見
ChatGPT 公開
2ヶ月で1億ユーザー、AI革命の決定的瞬間
GPT-4
マルチモーダル化、推論能力の飛躍
DeepSeek R1
オープンソース推論モデル、Multi-head Latent Attention採用
Agentic AI 時代
Claude 4, o3, Gemini 2.5、長期記憶とツール利用が標準に
著者たちのその後 — 「最も収益性の高い同窓会」
「Attention Is All You Need」の著者8人は、その後ほぼ全員がGoogleを離れ、自らAI企業を創業しました。CB Insightsはこの集団を「現代AI史で最も収益性の高い同窓会」と評しています。
| 著者 | 2017年の役割 | 現在(2026年) |
|---|---|---|
| Ashish Vaswani | Multi-Head Self-Attentionの設計主導 | Essential AI CEO(評価額10億ドル超) |
| Noam Shazeer | Scaled Dot-Product Attentionの数式化 | Google DeepMind(Character.AIを27億ドルで戻された) |
| Niki Parmar | Image Transformerなど応用研究 | Essential AI 共同創業者 |
| Jakob Uszkoreit | "Transformer"の命名者 | Inceptive CEO(mRNA医薬設計にTransformer応用) |
| Llion Jones | 論文タイトルの発案者 | Sakana AI 共同創業(東京拠点) |
| Aidan N. Gomez | 当時20歳のインターン(最年少) | Cohere CEO(評価額68億ドル、IPO準備中) |
| Łukasz Kaiser | tensor2tensorメンテナ | OpenAI(o1シリーズの研究リード) |
| Illia Polosukhin | Self-Attention初期実装 | NEAR Protocol 共同創業者(Web3) |
この章のまとめ
Attentionは2014年、翻訳の長文ボトルネックを解消する補助機構として誕生しました。2017年のTransformerでRNNを完全に置き換える主役となり、その上にGPT、BERT、ChatGPT、Claude……と続く現代のLLMすべてが立っています。
次の第3章では、Attentionの中身に入る前の準備として、「言葉を数字に変える」仕組み(Token、Embedding、ベクトル空間)を学びます。コンピュータは文字列をそのまま扱えません。まずベクトルに変換する必要があるのです。
理解度チェック
Attentionが最初に発表されたのは何年で、誰のどんな問題意識から生まれましたか?
キーボード: 1〜4 で選択、Enter で回答