序章 — ChatGPTは「文脈」をどう読んでいるか
英語のテスト問題でこんな文を見たことはありませんか。
The animal didn't cross the street because it was too tired.
この文の「it」は何を指しているでしょうか。当然 animal ですよね。では同じ文で tired を wide に変えるとどうでしょう。
The animal didn't cross the street because it was too wide.
今度は street を指します。たった1単語変えただけで、「it」の指す先がスイッチする。人間は無意識にやっていますが、これを機械にやらせるのは長らく不可能でした。
この「文中の他のどの単語に注目すれば意味が決まるか」を、機械が自分で学習する仕組み——それが Attention(注意機構) です。ChatGPT、Claude、Gemini、DeepSeek……2026年現在、世界中で使われているすべての大規模言語モデル(LLM)の心臓部に、このAttentionが入っています。
なぜ今、Attentionを学ぶのか
Vaswaniらによる論文「Attention Is All You Need」が公開されたのは2017年6月。それから9年経った2026年、Attentionは 過去10年で最も引用されたAI論文 の一つ(10万件超)になり、ChatGPTの週間アクティブユーザーは 9億人を超えました。
Attentionの理解は、もはや一部の研究者の専門知識ではありません。AIと共に働く時代において、「中で何が起きているのか」を直感的に把握できることは、エンジニアでなくとも大きな武器になります。そしてその直感は、行列やニューラルネットワークを知らなくても、「文中で誰の意見をどれだけ聞くか」という素朴なイメージから始められる のです。
graph LR A[2014年\nBahdanau Attention\n翻訳のために誕生] --> B[2017年\nTransformer\nAttention Is All You Need] B --> C[2018年\nBERT, GPT-1\n事前学習時代へ] C --> D[2022年\nChatGPT登場\n2ヶ月で1億ユーザー] D --> E[2026年現在\nClaude, Gemini, DeepSeek\nAgentic AIへ] style A fill:#3b82f6,stroke:#1d4ed8,color:#fff style B fill:#8b5cf6,stroke:#6d28d9,color:#fff style C fill:#8b5cf6,stroke:#6d28d9,color:#fff style D fill:#f97316,stroke:#ea580c,color:#fff style E fill:#14b8a6,stroke:#0d9488,color:#fff
直感編 — Attentionは「会議室の意見集約」だ
Attentionの正体を一言で言えば、こうなります。
「ある単語の意味を決めるために、文中の他のすべての単語に重みをつけて、その情報を混ぜ合わせる」
さきほどの英文を会議室に例えてみましょう。「it」という単語が議長で、こう発言します。「私の意味を決めたい。文中の他の単語のみなさん、どれが私と関係していますか?」
すると animal、street、tired たちが手を挙げます。議長「it」は、それぞれの手の挙げ方の強さ(=注目度)に応じて、彼らの意見を混ぜて自分の意味とします。「tired」が文中にあるとき、「animal」がいちばん強く手を挙げる。だから「it = animal」と理解できる、というわけです。
この「手を挙げる強さ」が、これから本シリーズで何度も登場する Attention重み(attention weight) です。そしてその重みは、人間が決めるのではなく、大量の文章を読ませることで機械が自動で学習 します。これがAttentionの革命的だった点です。
12章のロードマップ
本シリーズは、Attentionを「直感→数式→実装→未来」の順で12章にわたって深掘りします。各章には理解度を確認するクイズを3〜5問用意しています。
| 章 | タイトル | 何がわかるか |
|---|---|---|
| 第1章 | Attentionとは何か | シリーズ全体の地図と直感を得る(今ここ) |
| 第2章 | Attention誕生の物語 | 2014年のBahdanau論文から「Attention Is All You Need」までの物語 |
| 第3章 | 言葉を数字にする | Token、Embedding、ベクトル空間の入門 |
| 第4章 | 内積で似ているを測る | 高校の内積からAttentionへの橋渡し |
| 第5章 | Softmaxと注意の重み | 指数関数で「合計1の確率」を作る |
| 第6章 | Attentionの核心式 | softmax(QK^T/√dk)V を完全に解剖 |
| 第7章 | √dkとMulti-Head | 細部に宿る神:なぜ√dk?なぜ複数ヘッド? |
| 第8章 | 因果マスクと自己回帰 | GPTが「次の単語」を予測する仕組み |
| 第9章 | 位置情報を入れる | Positional Encoding と現代主流のRoPE |
| 第10章 | Transformer全体像 | Encoder/Decoder/FFN/Residualを統合 |
| 第11章 | PyTorch実装 | 50行で動くSelf-Attention |
| 第12章 | LLMと未来 | 2026年最前線と学習ロードマップ |
本シリーズを貫く3つの問い
最後に、これから12章を通じて何度も戻ってくる3つの問いを示しておきます。これらに自分の言葉で答えられるようになることが、本シリーズのゴールです。
- Q1. Attentionの式
softmax(QK^T/√dk)Vの各記号は何を表していて、なぜこの形なのか? - Q2. なぜTransformerはRNN/LSTMを完全に置き換えたのか? 設計思想の何が革命的だったのか?
- Q3. ChatGPTが文章を生成する瞬間、Attentionは具体的に何をしているのか?
第12章を読み終えたとき、あなたはこの3つに自分の言葉で答えられるようになっているはずです。それでは、第2章でAttentionの誕生秘話から旅を始めましょう。
理解度チェック
Attentionの直感を最もよく表しているものはどれですか?
キーボード: 1〜4 で選択、Enter で回答