第1章: Langfuseとは何か — LLM時代の観測・評価の新しい基準 | Langfuse Deep Dive

LLMアプリ開発が直面する3つの根本課題

ChatGPT登場から3年、LLMアプリケーションの開発は「プロンプトを書いてAPIを呼ぶだけ」という牧歌的なフェーズをとうに過ぎました。 RAG、マルチエージェント、ツールコール、長いチェーン・オブ・ソート — 実務に投入されるLLMアプリは複雑さを増し、運用チームは従来のDevOpsやMLOpsの枠組みでは捉えきれない、新種の運用課題に直面しています。

課題①: ブラックボックスな非決定的処理

通常のWebアプリは「入力Aに対して常に出力Bを返す」決定的な処理が基本ですが、LLMアプリは同じプロンプトでも毎回異なる応答を返します。さらに、エージェントやチェーン構成では内部で10〜100回のLLM呼び出しが連鎖し、どの呼び出しが最終品質を決めたのか一目では分かりません。本番で「回答が急に悪くなった」という報告を受けても、従来のログ（stdout、構造化JSON）を眺めるだけでは原因特定が事実上不可能です。

課題②: コストとレイテンシが動的に変動する

LLMの料金は入力・出力トークン数に比例し、利用パターンによって桁違いに変動します。あるユーザーが長文文書を10回貼り付けただけで、そのセッション単体で$100を超えるコストが発生することもあります。「平均レイテンシ」「平均コスト」という従来型APMの指標では、こうした裾の重い分布のリスクを捉えきれません。ユーザー別・セッション別・プロンプトバージョン別にトークン数と金額を紐付けて記録できる仕組みが必要です。

課題③: 「正解」が主観的で評価が難しい

LLMの出力は自由形式の自然言語であり、単体テストのように「expected == actual」で判定できません。「この回答は顧客にとって役立ったか」「幻覚は含まれていないか」「トーンは適切か」といった評価は、人間アノテーション、LLM-as-a-Judge、ユーザーフィードバックなど複数のソースを組み合わせる必要があります。かつ、これらのスコアを時系列で追跡・比較できないと、プロンプト改善の効果判定もできません。

Langfuseとは — 「LLMエンジニアリングプラットフォーム」の定義

Langfuse は、ドイツ・ベルリン発のスタートアップ Langfuse GmbH（旧Finto Technologies GmbH）が開発するオープンソースのLLMエンジニアリングプラットフォームです。 2022年末に Marc Klingen、Clemens Rawert、Maximilian Deichmann の3名が協業を開始し、 Y Combinator W23 バッチで複数回のピボットを経て、2023年6月にLLM観測基盤としてOSS公開されました。

公式は自らを「the open-source LLM engineering platform」と定義しています。これは意図的な選択で、単なる「LLMのAPMツール」ではなく、LLMアプリ開発のライフサイクル全体を支える基盤としての立ち位置を示しています。

Langfuseの4つの柱 — プラットフォームの全体像

Langfuseは4つの機能柱を統合したプラットフォームとして設計されています。個別のSaaSツールを組み合わせる構成と比べ、「トレースから直接プロンプトを修正してPlaygroundで検証し、Datasetで回帰テストする」という動線がシームレスに繋がります。

graph LR
  APP[LLM Application\nLangChain / LlamaIndex / OpenAI SDK 直叩き] --> LF[Langfuse]
  LF --> O[Observability\nTrace・Span・Generation]
  LF --> P[Prompt Management\nversioning + labels]
  LF --> E[Evaluation\nLLM-as-a-Judge + 人間]
  LF --> D[Datasets\nゴールドセット + Experiment]
  O -.トレース基点で.-> P
  E -.スコア付与.-> O
  D -.バッチ実行.-> O

  style APP fill:#3b82f6,stroke:#1d4ed8,color:#fff
  style LF fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style O fill:#f97316,stroke:#ea580c,color:#fff
  style P fill:#f97316,stroke:#ea580c,color:#fff
  style E fill:#14b8a6,stroke:#0d9488,color:#fff
  style D fill:#14b8a6,stroke:#0d9488,color:#fff

Langfuseの4つの柱: Observability（観測）、Prompt Management（バージョン管理）、Evaluation（評価）、Datasets（実験）。4機能が相互にリンクされ、フィードバックループを形成する

柱①: Observability（観測）

Langfuseの出発点にして最重要機能。LLMアプリの実行を Trace（リクエスト全体）と Observation（個別のLLM呼び出しやツール実行）として記録し、ダッシュボードで階層的に可視化します。トークン使用量、コスト、レイテンシ、モデル名、入力・出力、エラーが一覧できます。 OpenTelemetry準拠のため、既存のDatadog/Grafanaエコシステムとも共存可能です。

柱②: Prompt Management（プロンプト管理）

プロンプトをコードから切り出し、バージョニング・ラベリング（production/staging/latest）・監査履歴を提供します。 Gitのブランチ運用に近い体験で、デプロイ無しでプロンプトを変更・ロールバックできます。取得したプロンプトはLLM呼び出しに紐付け可能で、バージョン別のレイテンシ・コスト・スコアが自動集計されます。

柱③: Evaluation（評価）

LLM-as-a-Judgeによる自動評価（hallucination、toxicity、relevance等の事前定義テンプレート含む）、人間アノテーション、ユーザーフィードバック、カスタム評価器を Score という統一形式で保存します。 Scoreは数値/カテゴリ/真偽値の3種類、どのトレースやセッションにも付与可能です。

柱④: Datasets（データセット・実験）

入力と期待出力のゴールドセットを管理し、LLMアプリに流して実行結果を DatasetRun として記録します。プロンプトやモデルを変えて複数回走らせ、CI/CDパイプラインでスコアを比較することで、「新しいプロンプトが既存テストケースを壊していないか」を自動検証できます。

なぜ2026年の「事実上の標準」になったか

OSSのLLM観測プラットフォームは2023〜2024年に乱立しました（Arize Phoenix、OpenLLMetry、Helicone、LangSmithなど）。その中でLangfuseが抜け出した理由は、技術的な差別化に加えて戦略的な選択が組み合わさった結果です。

差別化軸	Langfuseの選択	競合の典型
ライセンス	MIT（コア全機能）- 商用利用・改変・再配布すべて可	LangSmithはプロプライエタリ、Phoenixは一部Elastic License
フレームワーク依存	非依存。OTel経由で80+統合	LangSmithはLangChain/LangGraphに最適化
Self-hosted	Docker Compose 1コマンド〜Kubernetes Helmまで公式サポート、Cloudと機能同等	LangSmithはEnterprise契約必須、Phoenix self-hostは機能限定
OpenTelemetry	2025年以降SDK全面OTelネイティブ化（Python v3/v4、TS v4）	独自フォーマット採用が多い
データモデル	Prompt Version / Score / Datasetを一級エンティティ化	多くはTraceのみで評価・実験は後付け

2026年1月: ClickHouse による $15B 評価での買収

2026年1月16日、高速OLAPデータベースで知られる ClickHouse, Inc. が Langfuse を買収すると発表しました。 ClickHouseは同日Dragoneer主導で$400MのシリーズDをクローズし、ポスト評価額 $15B の3倍化と同時の発表となりました。 Langfuse自体はv3アーキテクチャでClickHouseを中核データストアに採用していたため、技術的な親和性は既に高い状態でした。

採用すべき状況 / 採用しない方がよいケース

Langfuseは万能ではありません。以下の判断フレームで、自分のプロジェクトに適合するかを見極めます。

状況	推奨	理由
OSS + Self-hosted + データ主権必須	強く推奨	MITライセンス、Cloudと機能同等のSelf-host
LangChain/LangGraphに全面依存	要検討	LangSmithの方が統合が手厚い。ただしOTel経由でLangfuseも十分可
非LangChain（OpenAI SDK直叩き、Vercel AI SDK、Pydantic AI等）	強く推奨	フレームワーク非依存の設計が活きる
評価ワークフローが最優先	要検討	Braintrust/LangSmithのEvalが一歩成熟（ただしLangfuseも十分な機能を持つ）
Proxy型キャッシュでコスト削減が最優先	不向き	Langfuseはネイティブキャッシュ無し。Helicone/Portkeyが適合
単一Dockerで手軽にデバッグ	要検討	Langfuse v3はClickHouse/Redis/S3が必要。Arize Phoenixの方が軽量
既存APMと統合	推奨	OTel fan-outでDatadog/Grafana/Langfuseへ同時送信可能

本シリーズで学ぶこと — 全10章のロードマップ

本シリーズはLangfuseを「使えるようになる」ではなく、「設計判断ができるようになる」ことを目指します。 YC W23からClickHouse買収までの歴史、Postgres+ClickHouse+Redis+S3のv3アーキテクチャ、 OpenTelemetryネイティブSDKの仕組み、Prompt管理・評価・Dataset、Self-hosted本番運用、そしてMerck・LayerX・ZOZOの実事例まで、2026年時点の知見を網羅します。

graph TD
  C1[第1章\nLangfuseとは何か] --> C2[第2章\n歴史と進化]
  C2 --> C3[第3章\n競合地図と選定]
  C3 --> C4[第4章\nデータモデル徹底解剖]
  C4 --> C5[第5章\nv3アーキテクチャ]
  C5 --> C6[第6章\nOpenTelemetry SDKs]
  C6 --> C7[第7章\nPrompt Management]
  C7 --> C8[第8章\nEvaluation と Experiment]
  C8 --> C9[第9章\nSelf-hosted 本番運用]
  C9 --> C10[第10章\n事例と未来]

  style C1 fill:#3b82f6,stroke:#1d4ed8,color:#fff
  style C2 fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style C3 fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style C4 fill:#8b5cf6,stroke:#6d28d9,color:#fff
  style C5 fill:#f97316,stroke:#ea580c,color:#fff
  style C6 fill:#f97316,stroke:#ea580c,color:#fff
  style C7 fill:#f97316,stroke:#ea580c,color:#fff
  style C8 fill:#14b8a6,stroke:#0d9488,color:#fff
  style C9 fill:#14b8a6,stroke:#0d9488,color:#fff
  style C10 fill:#14b8a6,stroke:#0d9488,color:#fff

Langfuse Deep Dive 全10章のロードマップ: 基礎（青）→ 背景と選定（紫）→ 内部設計と実装（橙）→ 運用と事例（緑）

まず第1章のクイズで本章の理解度を確認し、第2章「歴史と進化」でLangfuseがなぜ今の形になったのかを深掘りしていきます。

理解度チェック

問題 0 / 50%

Langfuseが「4つの柱」として統合している機能の組合せとして正しいものはどれですか？

キーボード: 1〜4 で選択、Enter で回答