2026年5月21日開始

高校生でもわかるAttention Deep Dive

ChatGPTやClaudeの心臓部にある「Attention（注意機構）」を、高校2年生の数学（ベクトル・内積・指数関数）だけを前提に、歴史→直感→数式→PyTorch実装→2026年最前線まで12章で徹底解剖するシリーズ

#Attention#Transformer#LLM#深層学習#PyTorch#AI

第1章
第1章: Attentionとは何か — ChatGPTのなかで何が起きているか ChatGPTが「文脈を読む」とは具体的に何をしているのか。Attentionの直感と、このシリーズの12章を貫く問いを設定する
→
第2章
第2章: Attention誕生の物語 — 翻訳者の視線から生まれた革命 RNN/LSTMのボトルネック、Bahdanau 2014の閃き、Luong 2015の整理、Vaswani 2017の「Attention Is All You Need」革命までの年表
→
第3章
第3章: 言葉を数字にする — Token, Embedding, ベクトル空間 Tokenizerで文章を断片化し、Embeddingで「意味のベクトル」に変える仕組み。king - man + woman ≒ queen の不思議
→
第4章
第4章: 内積で「似ている」を測る — 高校の内積からの橋渡し高校数学Bの内積 a·b = |a||b|cosθ を復習し、Attentionが内積を「クエリとキーの相性スコア」として使う発想に繋げる
→
第5章
第5章: Softmaxと注意の重み — 指数関数で差を強調する魔法数学IIの指数関数 e^x を使い、内積スコアを「合計1の確率分布」に変えるsoftmaxを直感的に理解。温度パラメータも
→
第6章
第6章: Attentionの核心式 — Q, K, V を図書館の本探しで理解する Attention(Q,K,V) = softmax(QK^T/√dk)V を「図書館で本を探す」「教室で挙手する」比喩で完全に解剖する
→
第7章
第7章: √dkスケーリングとMulti-Head — 細部に宿る神なぜ√dkで割るのか（softmax飽和問題）、なぜ複数のヘッドに分けるのか（単一平均化の限界）を直感と数学で説明
→
第8章
第8章: 因果マスクと自己回帰 — GPTが「次の単語」を予測する仕組み未来のトークンを-∞で隠すCausal Mask、推論時の自己回帰生成、KVキャッシュの基礎まで
→
第9章
第9章: 位置情報を入れる — Positional Encoding と RoPE Attentionが順序を見ない問題を「多針時計」のsin/cos PEで解決。BERT/GPT-2のlearned PE、現代LLMの主流RoPE、ALiBiまで
→
第10章
第10章: Transformer全体像 — Encoder, Decoder, FFN, Residual+LayerNorm Attentionは「通信」、FFNは「記憶」、Residualは「勾配の高速道路」、LayerNormは「安定化」。Transformerの設計思想を統合する
→
第11章
第11章: PyTorchで作るAttention — 50行で動くSelf-Attention Scaled Dot-Product AttentionとMulti-Head AttentionをPyTorchでスクラッチ実装。動作確認と6つのつまずきポイント
→
第12章
第12章: AttentionからLLM、そして未来へ — 2026年最前線と学習ロードマップ BERT/GPT/Claude/DeepSeek、Multi-head Latent Attention、FlashAttention 4、Mamba/SSMハイブリッド、高校生からの学習ロードマップ
→

目次