第1章: Attentionとは何か — ChatGPTのなかで何が起きているか | 高校生でもわかるAttention Deep Dive

序章 — ChatGPTは「文脈」をどう読んでいるか

英語のテスト問題でこんな文を見たことはありませんか。

The animal didn't cross the street because it was too tired.

この文の「it」は何を指しているでしょうか。当然 animal ですよね。では同じ文で tired を wide に変えるとどうでしょう。

The animal didn't cross the street because it was too wide.

今度は street を指します。たった1単語変えただけで、「it」の指す先がスイッチする。人間は無意識にやっていますが、これを機械にやらせるのは長らく不可能でした。

この「文中の他のどの単語に注目すれば意味が決まるか」を、機械が自分で学習する仕組み——それが Attention（注意機構） です。ChatGPT、Claude、Gemini、DeepSeek……2026年現在、世界中で使われているすべての大規模言語モデル（LLM）の心臓部に、このAttentionが入っています。

なぜ今、Attentionを学ぶのか

Vaswaniらによる論文「Attention Is All You Need」が公開されたのは2017年6月。それから9年経った2026年、Attentionは 過去10年で最も引用されたAI論文 の一つ（10万件超）になり、ChatGPTの週間アクティブユーザーは 9億人を超えました。

Attentionの理解は、もはや一部の研究者の専門知識ではありません。AIと共に働く時代において、「中で何が起きているのか」を直感的に把握できることは、エンジニアでなくとも大きな武器になります。そしてその直感は、行列やニューラルネットワークを知らなくても、「文中で誰の意見をどれだけ聞くか」という素朴なイメージから始められる のです。

graph LR
  A[2014年\nBahdanau Attention\n翻訳のために誕生] --> B[2017年\nTransformer\nAttention Is All You Need]
  B --> C[2018年\nBERT, GPT-1\n事前学習時代へ]
  C --> D[2022年\nChatGPT登場\n2ヶ月で1億ユーザー]
  D --> E[2026年現在\nClaude, Gemini, DeepSeek\nAgentic AIへ]

  style A fill:#3b82f6,stroke:#1d4ed8,color:#fff
  style B fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style C fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style D fill:#f97316,stroke:#ea580c,color:#fff
  style E fill:#14b8a6,stroke:#0d9488,color:#fff

Attention誕生から12年。今やすべてのLLMがその上に立っている

直感編 — Attentionは「会議室の意見集約」だ

Attentionの正体を一言で言えば、こうなります。

「ある単語の意味を決めるために、文中の他のすべての単語に重みをつけて、その情報を混ぜ合わせる」

さきほどの英文を会議室に例えてみましょう。「it」という単語が議長で、こう発言します。「私の意味を決めたい。文中の他の単語のみなさん、どれが私と関係していますか？」

すると animal、street、tired たちが手を挙げます。議長「it」は、それぞれの手の挙げ方の強さ（=注目度）に応じて、彼らの意見を混ぜて自分の意味とします。「tired」が文中にあるとき、「animal」がいちばん強く手を挙げる。だから「it = animal」と理解できる、というわけです。

この「手を挙げる強さ」が、これから本シリーズで何度も登場する Attention重み（attention weight） です。そしてその重みは、人間が決めるのではなく、大量の文章を読ませることで機械が自動で学習 します。これがAttentionの革命的だった点です。

12章のロードマップ

本シリーズは、Attentionを「直感→数式→実装→未来」の順で12章にわたって深掘りします。各章には理解度を確認するクイズを3〜5問用意しています。

章	タイトル	何がわかるか
第1章	Attentionとは何か	シリーズ全体の地図と直感を得る（今ここ）
第2章	Attention誕生の物語	2014年のBahdanau論文から「Attention Is All You Need」までの物語
第3章	言葉を数字にする	Token、Embedding、ベクトル空間の入門
第4章	内積で似ているを測る	高校の内積からAttentionへの橋渡し
第5章	Softmaxと注意の重み	指数関数で「合計1の確率」を作る
第6章	Attentionの核心式	softmax(QK^T/√dk)V を完全に解剖
第7章	√dkとMulti-Head	細部に宿る神：なぜ√dk？なぜ複数ヘッド？
第8章	因果マスクと自己回帰	GPTが「次の単語」を予測する仕組み
第9章	位置情報を入れる	Positional Encoding と現代主流のRoPE
第10章	Transformer全体像	Encoder/Decoder/FFN/Residualを統合
第11章	PyTorch実装	50行で動くSelf-Attention
第12章	LLMと未来	2026年最前線と学習ロードマップ

本シリーズを貫く3つの問い

最後に、これから12章を通じて何度も戻ってくる3つの問いを示しておきます。これらに自分の言葉で答えられるようになることが、本シリーズのゴールです。

Q1. Attentionの式 softmax(QK^T/√dk)V の各記号は何を表していて、なぜこの形なのか？
Q2. なぜTransformerはRNN/LSTMを完全に置き換えたのか？設計思想の何が革命的だったのか？
Q3. ChatGPTが文章を生成する瞬間、Attentionは具体的に何をしているのか？

第12章を読み終えたとき、あなたはこの3つに自分の言葉で答えられるようになっているはずです。それでは、第2章でAttentionの誕生秘話から旅を始めましょう。

理解度チェック

問題 0 / 40%

Attentionの直感を最もよく表しているものはどれですか？

キーボード: 1〜4 で選択、Enter で回答