序章 — ChatGPTは「文脈」をどう読んでいるか

英語のテスト問題でこんな文を見たことはありませんか。

The animal didn't cross the street because it was too tired.

この文の「it」は何を指しているでしょうか。当然 animal ですよね。では同じ文で tiredwide に変えるとどうでしょう。

The animal didn't cross the street because it was too wide.

今度は street を指します。たった1単語変えただけで、「it」の指す先がスイッチする。人間は無意識にやっていますが、これを機械にやらせるのは長らく不可能でした。

この「文中の他のどの単語に注目すれば意味が決まるか」を、機械が自分で学習する仕組み——それが Attention(注意機構) です。ChatGPT、Claude、Gemini、DeepSeek……2026年現在、世界中で使われているすべての大規模言語モデル(LLM)の心臓部に、このAttentionが入っています。

なぜ今、Attentionを学ぶのか

Vaswaniらによる論文「Attention Is All You Need」が公開されたのは2017年6月。それから9年経った2026年、Attentionは 過去10年で最も引用されたAI論文 の一つ(10万件超)になり、ChatGPTの週間アクティブユーザーは 9億人を超えました。

Attentionの理解は、もはや一部の研究者の専門知識ではありません。AIと共に働く時代において、「中で何が起きているのか」を直感的に把握できることは、エンジニアでなくとも大きな武器になります。そしてその直感は、行列やニューラルネットワークを知らなくても、「文中で誰の意見をどれだけ聞くか」という素朴なイメージから始められる のです。

graph LR
  A[2014年\nBahdanau Attention\n翻訳のために誕生] --> B[2017年\nTransformer\nAttention Is All You Need]
  B --> C[2018年\nBERT, GPT-1\n事前学習時代へ]
  C --> D[2022年\nChatGPT登場\n2ヶ月で1億ユーザー]
  D --> E[2026年現在\nClaude, Gemini, DeepSeek\nAgentic AIへ]

  style A fill:#3b82f6,stroke:#1d4ed8,color:#fff
  style B fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style C fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style D fill:#f97316,stroke:#ea580c,color:#fff
  style E fill:#14b8a6,stroke:#0d9488,color:#fff
Attention誕生から12年。今やすべてのLLMがその上に立っている

直感編 — Attentionは「会議室の意見集約」だ

Attentionの正体を一言で言えば、こうなります。

「ある単語の意味を決めるために、文中の他のすべての単語に重みをつけて、その情報を混ぜ合わせる」

さきほどの英文を会議室に例えてみましょう。「it」という単語が議長で、こう発言します。「私の意味を決めたい。文中の他の単語のみなさん、どれが私と関係していますか?」

すると animalstreettired たちが手を挙げます。議長「it」は、それぞれの手の挙げ方の強さ(=注目度)に応じて、彼らの意見を混ぜて自分の意味とします。「tired」が文中にあるとき、「animal」がいちばん強く手を挙げる。だから「it = animal」と理解できる、というわけです。

この「手を挙げる強さ」が、これから本シリーズで何度も登場する Attention重み(attention weight) です。そしてその重みは、人間が決めるのではなく、大量の文章を読ませることで機械が自動で学習 します。これがAttentionの革命的だった点です。

12章のロードマップ

本シリーズは、Attentionを「直感→数式→実装→未来」の順で12章にわたって深掘りします。各章には理解度を確認するクイズを3〜5問用意しています。

タイトル 何がわかるか
第1章 Attentionとは何か シリーズ全体の地図と直感を得る(今ここ)
第2章 Attention誕生の物語 2014年のBahdanau論文から「Attention Is All You Need」までの物語
第3章 言葉を数字にする Token、Embedding、ベクトル空間の入門
第4章 内積で似ているを測る 高校の内積からAttentionへの橋渡し
第5章 Softmaxと注意の重み 指数関数で「合計1の確率」を作る
第6章 Attentionの核心式 softmax(QK^T/√dk)V を完全に解剖
第7章 √dkとMulti-Head 細部に宿る神:なぜ√dk?なぜ複数ヘッド?
第8章 因果マスクと自己回帰 GPTが「次の単語」を予測する仕組み
第9章 位置情報を入れる Positional Encoding と現代主流のRoPE
第10章 Transformer全体像 Encoder/Decoder/FFN/Residualを統合
第11章 PyTorch実装 50行で動くSelf-Attention
第12章 LLMと未来 2026年最前線と学習ロードマップ

本シリーズを貫く3つの問い

最後に、これから12章を通じて何度も戻ってくる3つの問いを示しておきます。これらに自分の言葉で答えられるようになることが、本シリーズのゴールです。

  1. Q1. Attentionの式 softmax(QK^T/√dk)V の各記号は何を表していて、なぜこの形なのか?
  2. Q2. なぜTransformerはRNN/LSTMを完全に置き換えたのか? 設計思想の何が革命的だったのか?
  3. Q3. ChatGPTが文章を生成する瞬間、Attentionは具体的に何をしているのか?

第12章を読み終えたとき、あなたはこの3つに自分の言葉で答えられるようになっているはずです。それでは、第2章でAttentionの誕生秘話から旅を始めましょう。

理解度チェック

問題 0 / 40%
Q1

Attentionの直感を最もよく表しているものはどれですか?

キーボード: 1〜4 で選択、Enter で回答