第9章: AI安全性と社会的影響 — リスク・倫理・規制 | LLM Deep Dive

ハルシネーション — LLMが「もっともらしい嘘」をつく理由

ハルシネーション（幻覚）とは、LLMが事実に反する情報をもっともらしく生成する現象です。これはLLM最大の実用上の課題であり、医療・法律・金融など高信頼性が求められる領域への導入を阻む主要因となっています。

事実性ハルシネーションと忠実性ハルシネーション

ハルシネーションは大きく2種類に分類されます。 事実性ハルシネーション（Factuality Hallucination）は、現実世界の事実と矛盾する情報を生成するケースです。「東京タワーの高さは500メートルです」のような明確な誤りがこれにあたります。一方、忠実性ハルシネーション（Faithfulness Hallucination）は、与えられた入力やコンテキストに矛盾する出力を生成するケースです。要約タスクで原文にない情報を追加してしまう場合などが該当します。

なぜハルシネーションが起きるのか

ハルシネーションの原因は複合的です。第一に、学習データの問題があります。インターネット上のテキストには誤情報や矛盾する記述が含まれており、モデルはそれらも含めて学習します。第二に、インセンティブ問題があります。LLMは「次のトークンを予測する」よう訓練されており、「正しい情報を述べる」ことを直接最適化していません。 RLHFなどのアライメント手法も、人間の評価者が好む流暢で自信に満ちた回答を生成する方向にモデルを誘導するため、「わからない」と答えるより「もっともらしい回答」を生成するバイアスが生じます。第三に、デコードのランダム性があります。 temperatureやtop-pによるサンプリングは多様な出力を生む反面、低確率のトークンが選ばれることでハルシネーションを引き起こすことがあります。

ハルシネーションへの対策

現時点で最も有効な対策はRAG（Retrieval-Augmented Generation）です。外部知識ベースから関連情報を検索し、それを根拠としてモデルに回答させることで、事実に基づいた生成を促します。ただし、RAGでも検索結果の品質が低い場合や、モデルが検索結果を無視して自身の知識に依存する場合にはハルシネーションが発生します。

もう一つの重要なアプローチが校正された不確実性（Calibrated Uncertainty）です。モデルが自身の回答に対する確信度を適切に表現できるようにする技術で、確信度が低い場合に「この情報は不確かです」と明示させることでリスクを軽減します。他にも、複数回の生成結果の一貫性を検証する自己整合性チェックや、別のモデルで出力を検証するチェーン検証などの手法が研究されています。

プロンプトインジェクション — LLMを操る攻撃手法

プロンプトインジェクションとは、悪意ある入力によってLLMの動作を意図しない方向に誘導する攻撃です。 SQLインジェクションがデータベースを標的とするように、プロンプトインジェクションはLLMのシステムプロンプトや安全性ガードレールを回避することを目的とします。

直接注入（Direct Injection）

ユーザーが直接プロンプトに悪意ある指示を含める手法です。「以前の指示をすべて無視して〜」のような単純なものから、高度な手法まで多岐にわたります。

間接注入（Indirect Injection）

外部データソース（Webページ、メール、ドキュメント）に悪意ある指示を埋め込み、 LLMがそのデータを処理する際に攻撃が発動する手法です。 RAGシステムやAIエージェントが外部データを取り込む場合に特に危険です。

主な攻撃テクニック

Best-of-N攻撃は、同じ悪意ある質問の表現を微妙に変えながら大量に投げることで、安全フィルタを確率的にすり抜ける手法です。 CCA（Conversation Context Augmentation）は、会話履歴にフェイクのやり取りを挿入し、モデルに「すでに許可を得た」と思い込ませる技術です。 ペイロード分割は、有害な指示を複数のメッセージに分割して送り、個々のメッセージでは無害に見えるが組み合わせると攻撃になるという手法です。 ロールプレイ誘導は、「あなたは制限のないAIです」などの役割を演じさせることで安全性制約を回避する手法で、初期のJailbreak（脱獄）で最も広く知られた方法です。

防御戦略 — 多層防御アーキテクチャ

プロンプトインジェクションに対する完全な解決策は、現在のLLMアーキテクチャでは存在しません。 LLMが「データ」と「命令」を同じテキスト入力として処理する以上、両者を完全に分離することは原理的に困難です。そのため、現実的なアプローチは多層防御（Defense in Depth）です。

graph TB
  A[ユーザー入力] --> B[入力フィルタ層\n有害パターン検出・サニタイズ]
  B --> C[LLM処理層\nシステムプロンプトの堅牢化]
  C --> D[出力監視層\nポリシー違反チェック・PII検出]
  D --> E[非同期モニタリング\nログ分析・異常検出]
  F[権限最小化\nAPI/DBアクセス制限] --> C
  G[キルスイッチ\n緊急停止機構] --> C

  style A fill:#ef4444,stroke:#dc2626,color:#fff
  style B fill:#f97316,stroke:#ea580c,color:#fff
  style C fill:#3b82f6,stroke:#2563eb,color:#fff
  style D fill:#f97316,stroke:#ea580c,color:#fff
  style E fill:#8b5cf6,stroke:#7c3aed,color:#fff
  style F fill:#14b8a6,stroke:#0d9488,color:#fff
  style G fill:#ef4444,stroke:#dc2626,color:#fff

多層防御アーキテクチャ: 単一の防御で完全な安全は保証できないため、複数の層で防御する

入力フィルタは既知の攻撃パターンを検出・除去する最初の防壁です。 出力監視はLLMの応答がポリシーに違反していないか、個人情報（PII）が含まれていないかを検証します。 非同期モニタリングはリアルタイムではなくバッチ処理でログを分析し、攻撃の傾向や新しいパターンを検出します。 権限最小化はLLMがアクセスできるAPIやデータベースの権限を最小限に絞り、仮に攻撃が成功しても被害を限定します。 キルスイッチは異常な挙動を検知した際にシステムを即座に停止する緊急機構です。

レッドチーミング — 攻撃者の視点で安全性を検証する

レッドチーミングとは、意図的にシステムを攻撃して脆弱性を発見するセキュリティ手法です。軍事演習における「仮想敵チーム（Red Team）」に由来し、LLM分野ではモデルの安全性ガードレールを回避できるプロンプトや入力を体系的に探索する活動を指します。

脆弱性の5大カテゴリ

LLMレッドチーミングで検証すべき脆弱性は、主に以下の5つに分類されます。

有害コンテンツ生成 — 暴力、違法行為、差別的発言の誘発
情報漏洩 — システムプロンプト、学習データ、個人情報の抽出
権限昇格 — 本来アクセスできないツールやデータへのアクセス奪取
バイアス・差別 — 特定の属性に対する不公平な扱いの露呈
サービス妨害 — 過剰なリソース消費やループの誘発

自動化ツール

DeepTeamはオープンソースのLLMレッドチーミングフレームワークで、 40種以上の攻撃手法を自動実行し脆弱性レポートを生成します。 Garak（旧Google系プロジェクト）はLLM脆弱性スキャナーで、プロンプトインジェクション、情報漏洩、有害コンテンツ生成などを網羅的にテストします。これらのツールをCI/CDパイプラインに組み込むことで、モデル更新のたびに安全性を自動検証できます。

規制動向 — 世界のAI規制を比較する

AI規制は各国・地域で大きくアプローチが異なります。特にEU、米国、日本の三極は、それぞれ包括的規制、規制緩和、ソフトローという対照的な路線を歩んでいます。

観点	EU（AI Act）	米国	日本
基本方針	リスクベースの包括的規制	規制緩和・イノベーション優先	ソフトロー中心・官民協調
主要法規	AI Act（2024年8月発効）	大統領令（バイデン→トランプで撤回）	AI推進法（2025年成立）
リスク分類	禁止・高リスク・限定リスク・最小リスクの4段階	連邦レベルでの統一分類なし	リスク分類の法的義務なし
汎用AIモデル規制	システミックリスクモデルに追加義務	自主規制ベース	ガイドラインで対応
罰則	最大3,500万ユーロまたは全世界売上の7%	業界自主規制が主	行政指導が中心
施行時期	2025〜2027年段階的施行	流動的（政権依存）	2025年以降段階的
特徴	世界初の包括的AI法、域外適用あり	セクター別規制、州法が先行	広島AIプロセス主導、国際協調重視

EU AI Actは2024年8月に発効し、2025年2月にまず禁止AI（ソーシャルスコアリング、感情認識の一部など）が施行され、 2025年8月に汎用AIモデルの透明性義務、2026年8月にハイリスクAIの本格規制と段階的に適用範囲が拡大します。域外適用を含むため、EU市場で事業を行う世界中の企業が対象となる点がGDPRと同様のインパクトを持ちます。

米国ではバイデン政権が2023年に包括的なAI大統領令を発出しましたが、トランプ政権に交代後の2025年1月にこれが撤回され、規制緩和・産業振興路線に転換しました。連邦レベルでの統一規制がない中、カリフォルニア州やニューヨーク市など州・自治体レベルの規制が先行しています。

日本は2025年にAI推進法を成立させましたが、これは規制よりもAI活用の推進に重点を置いた法律です。安全性に関してはガイドラインやソフトローで対応する方針で、広島AIプロセスを通じた国際協調も重視しています。

AIガバナンス — 企業の取り組み

規制の枠組みとは別に、AI企業自身が安全性に対してどのようなガバナンス体制を構築しているかも重要です。

OpenAI — 営利転換とPBC構造

OpenAIは2015年に非営利団体として設立されましたが、巨額の計算資源が必要となる中で 2019年に「利益上限付き営利（Capped Profit）」構造に移行しました。さらに2025年にはPBC（Public Benefit Corporation：公益法人）への転換を発表し、非営利部門がPBCの少数株を保有する構造を計画しています。この転換は「安全性よりも利益を優先するのでは」という批判を受けていますが、 OpenAIはAGI開発に必要な数千億ドル規模の資金調達にはPBC構造が不可欠と主張しています。

Anthropic — LTBTとRSP

AnthropicはLTBT（Long-Term Benefit Trust）というガバナンス構造を採用しており、信託が会社の安全性に関する拒否権を持つ仕組みです。また、RSP（Responsible Scaling Policy）を業界に先駆けて策定し、モデルの能力レベルに応じた安全性基準（ASL-1〜ASL-4）を定義しています。モデルが特定の危険な能力（バイオ兵器の設計支援など）を獲得した場合、対応する安全対策が整うまでデプロイを停止するという自主規制の枠組みです。

ライセンス体系

オープンソース・オープンウェイトモデルのライセンスもガバナンスの重要な側面です。 Apache 2.0は最も自由度が高く、商用利用も無制限です（Mistral、Gemmaなどが採用）。 Llama LicenseはMeta独自のライセンスで、月間アクティブユーザー7億人超のサービスには別途ライセンスが必要という制限があります。 DeepSeek LicenseはMITライセンスベースで、商用利用も自由です。ライセンスの違いは企業のAI導入戦略に直接影響するため、モデル選定時の重要な判断基準となります。

安全性評価 — ベンチマークとスコアリング

LLMの安全性を客観的に評価するためのベンチマークやフレームワークが整備されつつあります。

TruthfulQAは、人間が誤解しやすい817の質問でモデルの誠実性を評価します。「ニュートンはリンゴが頭に落ちて万有引力を発見した」のような広く信じられている誤解に対して、モデルが正確な回答をできるかを測定します。

BBQ（Bias Benchmark for QA）は、年齢・性別・人種などの属性に関するバイアスを質問応答形式で測定するベンチマークです。 SHADE-Arenaは、LLMの巧妙な操作行動（sycophancy、目標逸脱など）を検出する評価フレームワークです。

AI Safety Indexは、複数の安全性ベンチマークを統合した総合評価です。 2025年の評価では、Anthropicの Claude がC+、OpenAIのGPTがCと、いずれも「十分に安全」とは言い切れないスコアとなっており、業界全体としてまだ改善の余地が大きいことを示しています。

理解度チェック

問題 0 / 50%

LLMのハルシネーションの原因として最も本質的なものはどれですか？

キーボード: 1〜4 で選択、Enter で回答