← Deep Dive Technology

高校生でもわかるAttention Deep Dive

ChatGPTやClaudeの心臓部にある「Attention(注意機構)」を、高校2年生の数学(ベクトル・内積・指数関数)だけを前提に、歴史→直感→数式→PyTorch実装→2026年最前線まで12章で徹底解剖するシリーズ

#Attention#Transformer#LLM#深層学習#PyTorch#AI

目次

  1. 第1章
    第1章: Attentionとは何か — ChatGPTのなかで何が起きているか ChatGPTが「文脈を読む」とは具体的に何をしているのか。Attentionの直感と、このシリーズの12章を貫く問いを設定する
  2. 第2章
    第2章: Attention誕生の物語 — 翻訳者の視線から生まれた革命 RNN/LSTMのボトルネック、Bahdanau 2014の閃き、Luong 2015の整理、Vaswani 2017の「Attention Is All You Need」革命までの年表
  3. 第3章
    第3章: 言葉を数字にする — Token, Embedding, ベクトル空間 Tokenizerで文章を断片化し、Embeddingで「意味のベクトル」に変える仕組み。king - man + woman ≒ queen の不思議
  4. 第4章
    第4章: 内積で「似ている」を測る — 高校の内積からの橋渡し 高校数学Bの内積 a·b = |a||b|cosθ を復習し、Attentionが内積を「クエリとキーの相性スコア」として使う発想に繋げる
  5. 第5章
    第5章: Softmaxと注意の重み — 指数関数で差を強調する魔法 数学IIの指数関数 e^x を使い、内積スコアを「合計1の確率分布」に変えるsoftmaxを直感的に理解。温度パラメータも
  6. 第6章
    第6章: Attentionの核心式 — Q, K, V を図書館の本探しで理解する Attention(Q,K,V) = softmax(QK^T/√dk)V を「図書館で本を探す」「教室で挙手する」比喩で完全に解剖する
  7. 第7章
    第7章: √dkスケーリングとMulti-Head — 細部に宿る神 なぜ√dkで割るのか(softmax飽和問題)、なぜ複数のヘッドに分けるのか(単一平均化の限界)を直感と数学で説明
  8. 第8章
    第8章: 因果マスクと自己回帰 — GPTが「次の単語」を予測する仕組み 未来のトークンを-∞で隠すCausal Mask、推論時の自己回帰生成、KVキャッシュの基礎まで
  9. 第9章
    第9章: 位置情報を入れる — Positional Encoding と RoPE Attentionが順序を見ない問題を「多針時計」のsin/cos PEで解決。BERT/GPT-2のlearned PE、現代LLMの主流RoPE、ALiBiまで
  10. 第10章
    第10章: Transformer全体像 — Encoder, Decoder, FFN, Residual+LayerNorm Attentionは「通信」、FFNは「記憶」、Residualは「勾配の高速道路」、LayerNormは「安定化」。Transformerの設計思想を統合する
  11. 第11章
    第11章: PyTorchで作るAttention — 50行で動くSelf-Attention Scaled Dot-Product AttentionとMulti-Head AttentionをPyTorchでスクラッチ実装。動作確認と6つのつまずきポイント
  12. 第12章
    第12章: AttentionからLLM、そして未来へ — 2026年最前線と学習ロードマップ BERT/GPT/Claude/DeepSeek、Multi-head Latent Attention、FlashAttention 4、Mamba/SSMハイブリッド、高校生からの学習ロードマップ