Attention前夜 — RNNの限界

2014年以前、機械翻訳の主流は RNN(Recurrent Neural Network、再帰型ニューラルネット) でした。RNNは文章を左から右へ1単語ずつ読みながら、内部の「記憶状態」を更新していくモデルです。

しかしRNNには2つの根本的な弱点がありました。

  • 勾配消失問題:長い文章を読むと、文頭の情報が文末に届くまでに記憶から消えてしまう
  • 並列処理できない:t番目の単語の処理はt-1番目が終わるまで始められず、GPUの恩恵を受けられない

2014年、Googleの Sutskever らが発表した Seq2Seq(Sequence-to-Sequence) モデルは、これを2つのRNNで解決しようとしました。1つ目のRNN(Encoder)が原文を読み込んで 固定長の1つのベクトル に圧縮し、2つ目のRNN(Decoder)がそのベクトルから翻訳文を生成する、というアイデアです。

graph LR
  A[原文\nI love AI] --> B[Encoder RNN]
  B --> C[固定長ベクトル\n← ボトルネック!]
  C --> D[Decoder RNN]
  D --> E[訳文\n私はAIが好きだ]

  style A fill:#3b82f6,stroke:#1d4ed8,color:#fff
  style B fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style C fill:#ef4444,stroke:#b91c1c,color:#fff
  style D fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style E fill:#3b82f6,stroke:#1d4ed8,color:#fff
Seq2Seqモデルの構造。固定長ベクトルに全情報を詰め込むため、長文ほど情報が潰れる

ところがこの方式は、文が10〜20単語を超えると性能が急激に落ちることがすぐに判明します。「固定長ベクトルに、どんなに長い文の意味も詰め込まないといけない」という構造的なボトルネックです。

Bahdanauの閃き — 翻訳者の視線

この問題に挑んだのが、モントリオール大学の博士課程学生 Dzmitry Bahdanau(ベラルーシ出身)でした。指導教官は2018年にチューリング賞を受賞する Yoshua Bengio

Bahdanauは自分の中学校時代の英語翻訳の経験から、こんなことを考えました。

「翻訳しているとき、視線は原文と訳文の間を行ったり来たりする。デコーダRNNにも、原文のどこにカーソルを置くかを学習させればいい」

——つまり、固定長ベクトルに圧縮するのを諦め、デコーダが 各時点で原文のどの単語を見るかを動的に選ぶ 仕組みを足したのです。論文は2014年9月1日にarXivに投稿されました。タイトルは「Neural Machine Translation by Jointly Learning to Align and Translate」。

最初の試みから素晴らしくうまく動いた、とBahdanauは振り返っています。Googleの巨大なリソース(8GPUのLSTM)に先を越されまいと、急いでarXivに投稿したそうです。

Luong(2015)— 内積版Attentionの登場

Bahdanau Attentionは「加算型(Additive)」と呼ばれる方式で、QとKを足してから別のニューラルネットに通すものでした。1年後の2015年、Stanford NLPの Thang Luong らが 「Effective Approaches to Attention-based Neural Machine Translation」 を発表。ここで 内積型(Multiplicative / Dot-product)Attention が登場します。

内積型のほうが計算がシンプルで高速。これが後にTransformerの Scaled Dot-Product Attention の直接の祖先になります。

2017年6月 — Attention Is All You Need

そして運命の2017年6月12日。Google Brainの8人の研究者が、衝撃的なタイトルの論文をarXivに投稿します。

Attention Is All You Need

彼らの主張はシンプルかつ過激でした。「RNNを完全に捨てよう。Self-Attentionだけで翻訳ができる」。それまでAttentionはRNNの補助役だったのに、主役になれると宣言したのです。

観点 RNN/LSTM(〜2017) Transformer(2017〜)
処理方式 逐次処理(1単語ずつ) 完全並列(全単語を同時に)
長距離依存 弱い(情報が薄まる) 強い(任意の2単語が1ホップで繋がる)
GPU利用 効率悪い 極めて効率的
訓練時間 数週間 8GPU × 約12時間
英独翻訳BLEU 24.6 28.4(SOTA)

Transformer以降 — LLM時代の幕開け

Transformer誕生の翌年2018年、その上にTransformerを積み上げたモデルが次々と登場します。

Bahdanau Attention 誕生

Seq2seq+Attentionで機械翻訳を改革(Bahdanau, Cho, Bengio)

Luong Attention

内積型Attentionが登場、計算効率が向上(Luong, Pham, Manning)

Transformer 誕生

「Attention Is All You Need」(Vaswani et al., Google Brain)

GPT-1

OpenAI、Decoder-only Transformerで言語モデル事前学習

BERT

Google、Encoder-only Transformer、双方向文脈理解

GPT-3

1750億パラメータ、Few-shot学習を発見

ChatGPT 公開

2ヶ月で1億ユーザー、AI革命の決定的瞬間

GPT-4

マルチモーダル化、推論能力の飛躍

DeepSeek R1

オープンソース推論モデル、Multi-head Latent Attention採用

Agentic AI 時代

Claude 4, o3, Gemini 2.5、長期記憶とツール利用が標準に

著者たちのその後 — 「最も収益性の高い同窓会」

「Attention Is All You Need」の著者8人は、その後ほぼ全員がGoogleを離れ、自らAI企業を創業しました。CB Insightsはこの集団を「現代AI史で最も収益性の高い同窓会」と評しています。

著者 2017年の役割 現在(2026年)
Ashish Vaswani Multi-Head Self-Attentionの設計主導 Essential AI CEO(評価額10億ドル超)
Noam Shazeer Scaled Dot-Product Attentionの数式化 Google DeepMind(Character.AIを27億ドルで戻された)
Niki Parmar Image Transformerなど応用研究 Essential AI 共同創業者
Jakob Uszkoreit "Transformer"の命名者 Inceptive CEO(mRNA医薬設計にTransformer応用)
Llion Jones 論文タイトルの発案者 Sakana AI 共同創業(東京拠点)
Aidan N. Gomez 当時20歳のインターン(最年少) Cohere CEO(評価額68億ドル、IPO準備中)
Łukasz Kaiser tensor2tensorメンテナ OpenAI(o1シリーズの研究リード)
Illia Polosukhin Self-Attention初期実装 NEAR Protocol 共同創業者(Web3)

この章のまとめ

Attentionは2014年、翻訳の長文ボトルネックを解消する補助機構として誕生しました。2017年のTransformerでRNNを完全に置き換える主役となり、その上にGPT、BERT、ChatGPT、Claude……と続く現代のLLMすべてが立っています。

次の第3章では、Attentionの中身に入る前の準備として、「言葉を数字に変える」仕組み(Token、Embedding、ベクトル空間)を学びます。コンピュータは文字列をそのまま扱えません。まずベクトルに変換する必要があるのです。

理解度チェック

問題 0 / 50%
Q1

Attentionが最初に発表されたのは何年で、誰のどんな問題意識から生まれましたか?

キーボード: 1〜4 で選択、Enter で回答