高校生でもわかるAttention Deep Dive
ChatGPTやClaudeの心臓部にある「Attention(注意機構)」を、高校2年生の数学(ベクトル・内積・指数関数)だけを前提に、歴史→直感→数式→PyTorch実装→2026年最前線まで12章で徹底解剖するシリーズ
目次
- 第1章 第1章: Attentionとは何か — ChatGPTのなかで何が起きているか ChatGPTが「文脈を読む」とは具体的に何をしているのか。Attentionの直感と、このシリーズの12章を貫く問いを設定する→
- 第2章 第2章: Attention誕生の物語 — 翻訳者の視線から生まれた革命 RNN/LSTMのボトルネック、Bahdanau 2014の閃き、Luong 2015の整理、Vaswani 2017の「Attention Is All You Need」革命までの年表→
- 第3章 第3章: 言葉を数字にする — Token, Embedding, ベクトル空間 Tokenizerで文章を断片化し、Embeddingで「意味のベクトル」に変える仕組み。king - man + woman ≒ queen の不思議→
- 第4章 第4章: 内積で「似ている」を測る — 高校の内積からの橋渡し 高校数学Bの内積 a·b = |a||b|cosθ を復習し、Attentionが内積を「クエリとキーの相性スコア」として使う発想に繋げる→
- 第5章 第5章: Softmaxと注意の重み — 指数関数で差を強調する魔法 数学IIの指数関数 e^x を使い、内積スコアを「合計1の確率分布」に変えるsoftmaxを直感的に理解。温度パラメータも→
- 第6章 第6章: Attentionの核心式 — Q, K, V を図書館の本探しで理解する Attention(Q,K,V) = softmax(QK^T/√dk)V を「図書館で本を探す」「教室で挙手する」比喩で完全に解剖する→
- 第7章 第7章: √dkスケーリングとMulti-Head — 細部に宿る神 なぜ√dkで割るのか(softmax飽和問題)、なぜ複数のヘッドに分けるのか(単一平均化の限界)を直感と数学で説明→
- 第8章 第8章: 因果マスクと自己回帰 — GPTが「次の単語」を予測する仕組み 未来のトークンを-∞で隠すCausal Mask、推論時の自己回帰生成、KVキャッシュの基礎まで→
- 第9章 第9章: 位置情報を入れる — Positional Encoding と RoPE Attentionが順序を見ない問題を「多針時計」のsin/cos PEで解決。BERT/GPT-2のlearned PE、現代LLMの主流RoPE、ALiBiまで→
- 第10章 第10章: Transformer全体像 — Encoder, Decoder, FFN, Residual+LayerNorm Attentionは「通信」、FFNは「記憶」、Residualは「勾配の高速道路」、LayerNormは「安定化」。Transformerの設計思想を統合する→
- 第11章 第11章: PyTorchで作るAttention — 50行で動くSelf-Attention Scaled Dot-Product AttentionとMulti-Head AttentionをPyTorchでスクラッチ実装。動作確認と6つのつまずきポイント→
- 第12章 第12章: AttentionからLLM、そして未来へ — 2026年最前線と学習ロードマップ BERT/GPT/Claude/DeepSeek、Multi-head Latent Attention、FlashAttention 4、Mamba/SSMハイブリッド、高校生からの学習ロードマップ→