なぜ事例を最後に置くのか

1〜9章で仕組みを掘り下げてきました。最終章はそれが現場でどう使われているかを知り、 自組織への当てはめイメージを具体化するパートです。「規模」「業界」「使い方の深さ」の3軸で事例を眺めると、Langfuseの汎用性と限界が同時に見えてきます。

採用の広がり — Fortune 500 で63社

2026年4月時点、LangfuseはFortune 500の63社以上が何らかの形で採用しています。 GitHubスター数は16,000+、週次Issue/PR数は継続的に業界トップクラスを維持。 特にClickHouseとの合流発表(2026年1月)以降、エンタープライズからの問い合わせは前年同期比で3倍以上とされています。

業界 代表的な採用企業 主な用途
製薬・ヘルスケア Merck(独・Merck KGaA) 社内LLMポータル、27,000ユーザー規模
教育 Khan Academy Khanmigo(1対1 AIチューター)の品質監視
デザイン / SaaS Canva AI機能(Magic Write / Magic Design等)の評価
物流・モビリティ Samsara フリート運用AIアシスタント
金融バックオフィス LayerX 「バクラク」請求書処理のLLM監視
EC / ファッション ZOZO 商品画像VLM(Vision Language Model)の評価
小売 セブン-イレブン・ジャパン 店舗オペレーション支援AI
コンサルティング BCG X, Deloitte クライアント向けLLMアプリのQAパイプライン

事例1: Merck myGPT Suite — 27,000ユーザー規模の社内AI

ドイツのMerck KGaA(米Merckとは別法人)は、社内生成AIポータル myGPT Suite をLangfuseベースで構築。 製薬R&D / マーケ / 法務など多部門 27,000ユーザー がチャットボット・文書要約・コンプライアンスレビューなどのAIアプリを使用しています。

課題 Langfuseでの対処
GDPR対応のためEU外にデータを送れない Self-hostedをEU region k8sで運用
27,000人分の利用状況をチーム別に可視化 Trace の user_id / tags に部門情報を付与し、UIでブレークダウン
業務別の品質基準が異なる 用途ごとに Managed Evaluator を分けて設定
Prompt Eng. をビジネスオーナーが自分で回したい Playground + Protected Label でエンジニアリング介入を最小化

事例2: 日本の代表的採用(LayerX・ZOZO・セブン-イレブン)

LayerX バクラク

LayerXは「バクラク」シリーズで請求書・経費精算のOCR + LLM処理を大量に走らせています。 Langfuseでは各書類処理Traceに対して Hallucination / Correctness Evaluator を動かし、 人間のレビュアーが確認する前に異常値を検出する仕組みを構築しています。

ZOZO のVLM評価

ZOZOは商品画像×テキスト記述のVLM(Vision Language Model)を本番で運用。 Langfuseの multimodal Trace サポートにより、画像入力+テキスト出力のペアを観測し、 Dataset(ゴールド商品画像50件)との類似度を毎日自動評価しています。

セブン-イレブン・ジャパン

セブン-イレブンはフランチャイズ店舗向けのオペレーション支援AIでLangfuseを採用。 全国店舗からの問い合わせを品質監視し、Promptの改定がリアルタイム反映される体制を構築しています。 本番事故時にどのPromptバージョンがどれだけのリスクを持つか即特定できる点が評価されました。

事例3: グローバルSaaS(Canva・Khan Academy・Samsara)

企業 使い方の特徴
Canva Magic Write / Magic Design / Magic Edit など複数AI機能を Managed Evaluator で並列監視。Promptバージョン差異の影響をデザイナーKPIに直結させる
Khan Academy Khanmigo(AIチューター)の会話を学習成果と紐付け。教育的妥当性のEvaluatorをカスタム実装
Samsara フリート運用AIでCustom Evaluator + Dataset実験をCIに組み込み、新モデル切替を定量的に判断

導入の典型パターン — 4段階

graph LR
  S1[Stage 1<br/>Trace可視化] --> S2[Stage 2<br/>Prompt Management]
  S2 --> S3[Stage 3<br/>Evaluator導入]
  S3 --> S4[Stage 4<br/>CI/CD結合]
  S1 -.-|1-2週間| S2
  S2 -.-|2-4週間| S3
  S3 -.-|1-3ヶ月| S4
Langfuse導入の4段階。ほとんどの企業はStage 1(Trace可視化)から始め、数ヶ月かけてCI/CDまで結合していく
  1. Stage 1: SDKを入れてTraceを送る。これだけで「どこで遅い」「どこで失敗」「月コスト」が見える
  2. Stage 2: ハードコードされたプロンプトをPrompt Managementへ移動。Labelで本番/開発を分離
  3. Stage 3: Managed Evaluatorで品質を定量化。人間Annotationとユーザー👍👎を並立
  4. Stage 4: Dataset + Experiment RunnerをCIに組み込み、Promptやモデル切替を"回帰テスト駆動"に

ClickHouse合流後の展望

ClickHouse によるLangfuse買収発表

$15B post-money valuation、全メンバーがClickHouseに合流しつつブランドは独立維持

Simplify for Scale リリース

単一コンテナ + K8s Operator で規模問わず運用可能に

ClickHouse Cloud統合(見込み)

ClickHouse Cloud ユーザーに対してLangfuse機能が1クリックで有効化

Observability Data Stack 構想

Logs/Metrics/Traces/LLMすべてClickHouse上で統合分析する動き

OLAP駆動の次世代評価

SQL / DataFrame APIで評価を書くスタイルが主流に(見込み)

方向性 期待される変化
プラットフォーム統合 ClickHouse Cloud にネイティブLangfuse機能が埋め込まれ、別デプロイ不要になる
OLAP評価の強化 SQLで評価Queryを書く文化が広がる。Ragas等もClickHouse SQLで再実装される流れ
データモデル統一 OpenTelemetry Semantic Conv for Generative AI が標準化し、Langfuse/LangSmith/Phoenix間でTraceを移送可能に
AI Agent計装の深化 エージェントフレームワーク(CrewAI/AutoGen/LangGraph/OpenAI Agents SDK)がOTel準拠で統一計装
エンタープライズSKU拡充 SSO / RBAC / Audit Log / SOC2 / HIPAA 対応が深化

学習ロードマップ

レベル 到達目標 推奨アクション
入門 Trace可視化まで 公式Quickstart(Python/TS)→ sample app をTrace → Langfuse Cloud無料枠で動かす
初級 Prompt Managementでバージョン管理 ハードコードPromptを全部Langfuseに移行 → Labelでcanary切替
中級 Evaluator + Dataset + Experiment Managed Evaluator 2種 + ゴールドセット20件 + pytest結合
上級 Self-hosted 運用 Helm chartで Web/Worker 分離運用 → HPA設定 → Prometheus監視
熟練 スケール最適化 + IaC化 Terraform + Operator + ClickHouse shard追加 + Dual-write移行の設計

おすすめ一次情報

  • 公式ドキュメント: langfuse.com/docs — まず Getting Started → Tracing → Prompt Management → Evaluation の順
  • GitHubリポジトリ: github.com/langfuse/langfuse — Issue / RFC / CHANGELOG を追うと開発の方向が分かる
  • YouTube: 公式チャンネルの Launch Week 動画。各回の"統合ビデオ"が最も情報密度が高い
  • Discord: 運用Q&Aや実装相談のログが豊富。スケールチューニングは特に価値が高い
  • Launch Week ブログ: 春秋のキャンペーン時に新機能が一気に公開されるので、ここだけでも追うと時系列理解が深まる
  • ClickHouse公式ブログ: 合流後は統合アーキテクチャの解説がClickHouse側から発表される可能性が高い

シリーズ総まとめ

Langfuseは2023年の小さなOSSから出発し、2026年にはClickHouse傘下でエンタープライズLLMOpsの背骨に成長しました。 次はあなたの組織で、このシリーズの知識を具体的に明日のPR・来週のダッシュボード・来月の評価パイプラインとして実装していく番です。 迷ったときはまた章4(データモデル)に戻ってきてください — あそこが全ての原点です。

理解度チェック

問題 0 / 50%
Q1

Langfuseの導入を段階的に進める際、最初のStage 1として 最も適切 なゴールはどれか?

キーボード: 1〜4 で選択、Enter で回答