第2章: LLMの歴史 — n-gramからTransformerへ | LLM Deep Dive

言語モデルの始まり — 統計的手法の時代

言語モデルの歴史は、1990年代のn-gramモデルにまで遡ります。 n-gramモデルは「直前のn-1個の単語から次の単語を予測する」という単純な統計的手法です。例えば、3-gram（トライグラム）モデルでは「I want to」の次に来る単語を、大量のテキストデータから計算された条件付き確率 P(w | w₋₂, w₋₁) に基づいて予測します。

n-gramモデルは音声認識や機械翻訳の初期段階で大きな成果を上げましたが、根本的な限界がありました。 データの疎性（sparsity）の問題です。 nを大きくすれば文脈を長く取れますが、語彙数Vに対してV^n個の組み合わせが生まれるため、訓練データに出現しないn-gramが爆発的に増加します。 5-gramや6-gramになると、ほとんどの組み合わせの確率を推定できなくなるのです。

さらに、n-gramモデルは単語の意味を理解しないという本質的な弱点を抱えていました。「犬が公園を走る」と「猫が公園を走る」は統計的には全く別のパターンとして扱われ、「犬」と「猫」がどちらも動物であるという意味的な類似性を捉えることができなかったのです。

ニューラル言語モデルの登場

Word2Vec — 単語をベクトルで表現する（2013）

統計的手法の限界を打破する転機となったのが、2013年にGoogleのTomas Mikolovらが発表した Word2Vecです。Word2Vecは各単語を数百次元のベクトル（分散表現）として学習し、意味的に類似した単語が近い位置にマッピングされるという画期的な特性を持っていました。

有名な例として、Word2Vecのベクトル空間では以下のような算術が成立します：

vec("King") - vec("Man") + vec("Woman") ≈ vec("Queen")

この発見は、機械が「意味」の一側面を数値的に捉えられることを示し、自然言語処理（NLP）コミュニティに大きな衝撃を与えました。

RNNとLSTM — 系列データへの挑戦

ニューラルネットワークを言語モデルに応用する試みとして、 RNN（Recurrent Neural Network、再帰型ニューラルネットワーク）が注目されました。 RNNは入力を1トークンずつ順番に処理し、隠れ状態（hidden state）に過去の情報を蓄積することで、可変長の系列データを扱えるモデルです。

しかし、RNNには勾配消失問題がありました。長い系列を処理すると、後方のトークンに対する誤差勾配が指数的に小さくなり、文頭の情報が文末まで伝わらないという現象が起きるのです。

この問題を緩和するためにSepp HochreiterとJürgen Schmidhuberが 1997年に提案したのがLSTM（Long Short-Term Memory）です。 LSTMは「ゲート機構」を導入し、どの情報を保持し、どの情報を忘却するかを学習可能にしました。これにより、RNNよりもはるかに長い系列の依存関係を捉えることが可能になりました。

Seq2Seq と注意機構（2014）

2014年、GoogleのIlya SutskeverらがEncoder-Decoderアーキテクチャに基づく Seq2Seq（Sequence to Sequence）モデルを発表しました。 Seq2Seqは入力文をEncoder（LSTM）で固定長ベクトルに圧縮し、 Decoder（LSTM）でそのベクトルから出力文を生成するモデルです。機械翻訳の精度を大幅に向上させましたが、長い入力文を1つの固定長ベクトルに詰め込む「ボトルネック問題」がありました。

同じ2014年、Dzmitry Bahdanauらが注意機構（Attention Mechanism）を提案し、この問題を解決しました。注意機構は、Decoderが出力を生成する各ステップで、 Encoderの全ての隠れ状態を参照し、関連性の高い部分に「注意」を向ける仕組みです。固定長ベクトルのボトルネックが解消され、翻訳精度は飛躍的に向上しました。

Transformerの誕生 — 「Attention Is All You Need」

2017年6月、Googleの研究者Ashish Vaswaniら8名が 「Attention Is All You Need」と題した論文を発表しました。この論文で提案されたTransformerアーキテクチャは、 RNNやLSTMを一切使わず、Self-Attention（自己注意機構）のみで系列データを処理するという、当時としては大胆な設計でした。

Transformerの3つの革新

Transformerが言語モデルの歴史を根本から変えた理由は、主に3つあります。

第一に、並列処理の実現です。 RNN/LSTMはトークンを1つずつ順番に処理するため、GPUの並列計算能力を活かせませんでした。 Transformerはself-attentionにより、入力系列の全トークンを同時に処理できます。これにより、訓練速度が劇的に向上しました。

第二に、長距離依存の直接的な捕捉です。 RNNでは文頭と文末の関係は多数の中間ステップを経由する必要がありました。 Transformerでは任意の2トークン間のAttentionを1ステップで計算でき、系列の長さに依存しない情報伝達が可能になりました。

第三に、スケーラビリティです。並列処理が可能になったことで、モデルサイズとデータ量を大幅にスケールアップできるようになりました。この特性が、後のGPTシリーズやBERTの大規模化を可能にしたのです。

特性	RNN/LSTM	Transformer
処理方式	逐次処理（1トークンずつ）	並列処理（全トークン同時）
長距離依存	勾配消失で困難	Self-Attentionで直接捕捉
訓練速度	遅い（並列化不可）	高速（GPU並列化）
スケーラビリティ	限定的	大規模化に適する
代表的モデル	ELMo, 初期NMT	GPT, BERT, T5

8人の著者とその後

この歴史的論文の著者8名は、Google BrainとGoogle Researchの研究者でした。興味深いことに、8名全員がその後Googleを離れ、それぞれがAI業界の要職に就いたり、スタートアップを設立したりしています。 Aidan GomezはCohere社を、Niki ParmarとAshish VaswaniはAdept AI（後にAmazonが買収）を、 Llion JonesはSakana AIを共同設立するなど、 Transformerの著者たちはAI産業のエコシステム全体に影響を与え続けています。

GPTシリーズの進化

Transformerの誕生以降、大規模言語モデルの進化は加速度的に進みました。以下の年表は、GPTシリーズを中心としたLLMの主要マイルストーンです。

timeline
    title LLM進化年表（2017-2023）
    2017 : Transformer発表
         : 「Attention Is All You Need」
    2018 : GPT-1（117Mパラメータ）
         : BERT（340M, Google）
    2019 : GPT-2（1.5B）
         : 「危険すぎる」として段階公開
    2020 : GPT-3（175B）
         : スケーリング則（Kaplan et al.）
    2022 : InstructGPT / RLHF
         : ChatGPT公開（11月30日）
    2023 : GPT-4（推定1.8T）
         : マルチモーダル対応

Transformerからの大規模言語モデル進化年表

GPT-1とBERT — 2つのアプローチ（2018）

2018年6月、OpenAIはTransformerのDecoderのみを使用したGPT-1（1億1700万パラメータ）を発表しました。 GPT-1は「教師なし事前学習 + 教師ありファインチューニング」という2段階のアプローチで、少量のラベル付きデータでも高い性能を発揮できることを示しました。

同年10月、GoogleはTransformerのEncoderを活用したBERT（3億4000万パラメータ）を発表しました。 BERTは文の両方向から文脈を学習する「双方向モデル」で、11のNLPベンチマークで当時の最高精度を更新しました。 GPTの「左から右へ」とBERTの「双方向」は、LLMの2大アプローチとして競い合います。

GPT-2 — 「危険すぎる」AI（2019）

2019年2月、OpenAIはGPT-2（15億パラメータ）を発表しましたが、「悪用リスクが高い」としてフルモデルの公開を見送るという異例の判断を下しました。この決定はAIの安全性に関する大きな議論を巻き起こし、「安全のためにモデルを非公開にすべきか」という問いをAIコミュニティに突きつけました。最終的に段階的な公開が行われましたが、この出来事はAI安全性議論の転機となりました。

GPT-3 — スケーリングの威力（2020）

2020年5月に発表されたGPT-3は、1750億パラメータという当時として破格の規模を誇りました。 GPT-3はファインチューニングなしで、プロンプトに数例を示すだけで多様なタスクをこなせる Few-shot学習能力を獲得し、言語モデルの可能性を大きく押し広げました。

同年、Jared Kaplanらが発表したスケーリング則（Scaling Laws）は、モデルサイズ・データ量・計算量の増加に対してモデル性能が予測可能なべき乗則に従って向上することを示しました。この発見は「とにかく大きくすれば賢くなる」という信念を理論的に裏付け、その後の大規模化競争を加速させることになります。

ChatGPTとGPT-4 — 社会を変えた瞬間（2022-2023）

2022年初頭、OpenAIはInstructGPTを発表し、 RLHF（Reinforcement Learning from Human Feedback）を用いて LLMを人間の指示に従うように調整する手法を確立しました。

そして2022年11月30日、ChatGPTが公開されます。リリースからわずか5日で100万ユーザーを突破し、2ヶ月で1億ユーザーに到達。これは史上最速で普及したアプリケーションとなりました。 ChatGPTは「AIが人間と自然に対話できる」ことを世界中に証明し、LLMを一般大衆に届けた転換点です。

2023年3月にはGPT-4がリリースされました。パラメータ数は推定1.8兆（1.8T）。テキストだけでなく画像入力にも対応するマルチモーダルモデルとして、司法試験で上位10%に入るなど、人間の専門家に匹敵する性能を示しました。

主要研究機関の設立

LLMの発展は、先見的な研究機関によって牽引されてきました。各機関の設立と進化の軌跡を振り返ります。

組織	設立年	設立の経緯	主な貢献
OpenAI	2015	Elon Musk, Sam Altmanらが非営利として設立。2019年にLP構造へ移行	GPTシリーズ, ChatGPT, DALL-E, RLHF
DeepMind	2010	Demis Hassabisらが設立。2014年にGoogle買収、2023年Google Brain統合でGoogle DeepMindに	AlphaGo, AlphaFold, Gemini
Anthropic	2021	OpenAI元VP Dario Amodeiらが安全性重視で設立	Claude, Constitutional AI, RLHF改良
Meta AI（FAIR）	2013	Yann LeCunがFacebook AI Researchとして設立	LLaMA, PyTorch, オープンソース推進

パラメータ数の指数的成長

LLMの進化を最も象徴的に表す指標が、パラメータ数の推移です。 GPT-1の1億1700万（117M）からGPT-4の推定1兆8000億（1.8T）まで、わずか5年で約1万5千倍に膨れ上がりました。

xychart-beta
    title "LLMパラメータ数の推移（対数スケール）"
    x-axis ["GPT-1
(2018)", "BERT
(2018)", "GPT-2
(2019)", "GPT-3
(2020)", "GPT-4
(2023)"]
    y-axis "パラメータ数（億）" 1 --> 20000
    bar [1.17, 3.4, 15, 1750, 18000]

GPT-1からGPT-4へのパラメータ数の指数的成長

この指数的成長はスケーリング則によって裏付けられましたが、同時にコストの問題も深刻化しています。 GPT-3の訓練コストは推定460万ドル、GPT-4は推定1億ドル以上とされ、大規模モデルの開発は一部の巨大テック企業や潤沢な資金を持つスタートアップに限られつつあります。

まとめ

言語モデルの歴史は、n-gramの統計的手法から始まり、Word2VecやLSTMのニューラル化を経て、 2017年のTransformer誕生で決定的な転換点を迎えました。その後わずか5年で、GPTシリーズはパラメータ数を1万5千倍に増やし、 ChatGPTによって一般社会にまでAIの影響を及ぼすようになりました。

次章では、このTransformerの内部構造 — Self-Attention、Multi-Head Attention、位置エンコーディングなどの仕組みを、数式と図解で詳しく解き明かしていきます。

理解度チェック

問題 0 / 50%

Transformerアーキテクチャを提案した2017年の論文のタイトルは何ですか？

キーボード: 1〜4 で選択、Enter で回答