LLM アプリの性能改善を、HITL で回す

AIの品質を、
人間の目で保証する。

業界ドメインエキスパートを巻き込む HITL ループで、LLM アプリのハルシネーション率・IAA・CS クレームを継続的に改善します。v1.2 別添3 の条項別エビデンス PDF は運用ログから自動で生成されるため、規制対応の工数を追加で積む必要はありません。

お問い合わせ

業界エキスパート招待は無制限・座席課金なし
Pairwise / Single-run rubric / IAA 計測を 1 ツールで
条項別エビデンス PDF は副産物として自動生成

Humanify ダッシュボード（最近のプロジェクト / 未対応タスク / アクティビティ）

The Gap

いま AI 品質保証で
企業が直面している 3 つの事実

評価しても、改善先が見えない

スコアは出るが、誰がどこを直せばよいか追跡できない。Excel や Notion での評価運用は人数が 10 人を超えるとほぼ確実に破綻する。

監査時に提出できる形になっていない

評価ログはあっても、AI 事業者ガイドライン v1.2 別添3 の条項にマッピングされていなければ、監査人は読まないし受け取らない。

業界専門家が評価から締め出されている

医師・弁護士・編集者・CS マネージャー —— AI 出力の価値判断ができる人ほど、エンジニア向けの評価ツールを触れない。

Workflow

ログ取り込みから監査
PDF 出力までの 3 ステップ

ログ取り込み → 業界別ペルソナで評価 → 条項別エビデンス出力。既存の観測層（Langfuse 等）とも補完関係で連携できます。

Step 01

ログを取り込む

Python SDK 5 行、または OpenTelemetry エンドポイント。既存の観測層からのインポートにも対応します。プロンプト・出力・メタデータ（業界ペルソナ、信頼度スコア等）を一気に投入。

Python SDK / REST / OpenTelemetry
Langfuse 等の観測層からのインポート
PII マスキング（Pro 以上で標準搭載）

from humanify import Humanify

hf = Humanify(api_key="...")
hf.log(prompt=p, output=o,
       metadata={"persona": "medical"})

Step 02

業界別ペルソナで評価する

LLM Judge が一次選別、人間サンプリング（5% / 10% / 100% / 条件付き）が二次レビュー。医療・法務・金融・公共・CS の業界別ルーブリックを同梱。Pairwise 比較／Single-run rubric／IAA（評価者間一致度）を1ツールで。

LLM Judge × 人間キャリブレーション
6 業界の評価テンプレート同梱
3 列キュー型レビューワークスペース + キーボードショートカット

Step 03

条項別エビデンス PDF を出力する

AI 事業者ガイドライン v1.2 別添3（D-X) i, ii, iii の 14 項目）への条項別マッピングを自動生成。EU AI Act Art.14(3) 比例原則とも整合します。改ざん防止ログ（WORM）として 10 年保持（Enterprise 同梱）、監査用パッケージはワンクリック。

v1.2 別添3 14 項目マッピング
EU AI Act Art.14(3) 整合チェック
改ざん防止ログ（WORM）/ 監査用パッケージ

副産物として揃う規制エビデンス

性能改善の運用ログが、
そのまま監査エビデンスになる

HITL ワークフローを回すだけで、条項別エビデンスは運用ログから自動で蓄積されます。 全件人間レビューは公式に求められていません。AI 事業者ガイドライン v1.2 別添3 B-1)①（p.121）は「人間による判断を受ける機会の確保」と記載しており、Humanify のサンプリング設計（5% / 10% / 100% / 条件付き）はこの公式記述をそのまま製品化したものです。

「AI での判断だけでなく、当該個人が人間による判断を受ける機会を確保」— AI 事業者ガイドライン v1.2 別添3 B-1)① p.121

条項別マッピングは Pro 以上に同梱、改ざん防止ログ（WORM）の 10 年保持は Enterprise に同梱します。監査時はワンクリックで PDF パッケージを出力できます。

AI 事業者ガイドライン v1.2 別添3公式採番 D-X) i, ii, iii ／ ★ は最強サポート（★★★相当）

採番	要求事項	カバー
D-3) ii★	人間判断介在の3条件	◎
D-6) i★	LLM 説明可能性の限界	◎
D-7) ii★	透明性報告書	◎
B-1) ②★	条件付き人間最終判断	◎
D-2) ii	フォールバック設計	◎
B-1) ①	人間判断を受ける機会	◎
B-7) ⑤	客観的モニタリング	◎
C-II)	リスクベース監視	○

EU AI ActArt.14(3) 比例原則と整合（v1.2 別添3 の HITL 設計と矛盾しない）

条項	要求事項	カバー
Art. 11	技術文書	◎
Art. 12	ログ・記録保持	◎
Art. 14	人間による監督	◎

Use cases

ペルソナ別のユースケース

PM／情シスから本決裁のコンプラ部門まで、決裁構造の異なる 2 層と、実際に評価する業界別エキスパートの計 3 つのペルソナを 1 つのプラットフォームでカバーします。

PM・情シスマネージャー

モデル切替前の回帰テスト、新プロンプトの A/B 比較、リリース前のセルフ品質チェック。エンジニアと業務オーナーが同じダッシュボードで意思決定する。

改善前後のスコア変化を時系列で追跡
LLM Judge × 人間サンプリングの不一致レポート
IAA（評価者間一致度）でルーブリックを継続改善

Alternatives

自前構築 vs Humanify

観測層 OSS ＋ Excel ／ Notion 運用＋規制対応コンサルで構築する場合の、実装・運用・更新負荷を Humanify と並べて比較します。

軸

自前構築（OSS + Excel + 規制コンサル）

Humanify

規制エビデンスPDF

手作業（年数百時間）

ワンクリック生成

業界別ペルソナ・ルーブリック

ゼロから設計

6 業界テンプレ同梱

評価者のスケール

10 人運用で破綻

100 人でも破綻しない

改ざん防止ログ（WORM）

別途インフラ構築

Enterprise 標準搭載

v1.2 別添3 マッピング更新

自社で追従

プロダクト側で追従

年間 TCO（中堅向け試算）

600〜1,500 万円 + 内製負荷

Pro 約 60 万円（¥50K × 12、年契約 -15% で約 51 万円）／ Enterprise はお問い合わせ

※ 自前構築は中堅企業（評価者 20〜30 名規模）で内製した場合の試算。実装 4〜6 ヶ月＋年間運用 0.5〜1 FTE 相当の負荷を含む。Humanify 側の Enterprise コミット額は要件により変動するため、LP では価格非公開とし、ご要件に応じて個別ご提案します。

Pricing

Starter から始めて、Pro・Enterprise に育てる

LLM Judge は全プラン共通でクレジット込み + 超過は使った分だけ（¥10/件、Pro は ¥8/件、Enterprise はカスタム）。HITL 処理数と規制対応機能の充実度で Starter / Pro を棲み分け、Enterprise は全部のせ＋オンプレ／BYOC／SLA／カスタム実装に対応します。業界エキスパート招待は座席課金なし・全プラン無制限です。

Free

¥0

個人 / PoC 検証

セルフサーブ

お問い合わせ

LLM Judge 込み月 100 件込み
超過単価超過 ¥10/件
HITL 処理月 100 件
データ保持30 日

Recommended

Starter

¥15,000/ 月

年契約 -10%（¥13,500 / 月相当）

SMB / 個人開発者 / 中堅 PM

月契約・カード決済

お問い合わせ

LLM Judge 込み月 500 件込み
超過単価超過 ¥10/件
HITL 処理月 300 件
データ保持90 日

Pro

¥50,000/ 月

年契約 -15%（¥42,500 / 月相当）

中堅 PM / プロダクト責任者 / コンプラ

月契約／年契約・請求書払

営業相談

LLM Judge 込み月 3,000 件込み
超過単価超過 ¥8/件
HITL 処理月 1,000 件
データ保持1 年

Enterprise

お問い合わせ

年契約・コミットカスタム

CISO / 法務役員

年契約・調達対応

お問い合わせ

LLM Judge 込み無制限 or カスタム
超過単価カスタム
HITL 処理無制限
データ保持10 年（WORM）

プラン別の機能比較

機能	Free	Starter	Pro	Enterprise
Pairwise 比較 / Single-run rubric / IAA 計測	◎	◎	◎	◎
業界別ペルソナ・テンプレ（医療・法務・金融・公共・CS）	◎	◎	◎	◎
業界エキスパート招待（座席課金なし・全プラン無制限）	◎	◎	◎	◎
LLM Judge × 人間サンプリング（5/10/100/条件付き）	◎	◎	◎	◎
LLM Judge 自動評価 / 月込み件数	100 件	500 件	3,000 件	無制限
LLM Judge 超過単価	¥10/件	¥10/件	¥8/件	カスタム
HITL 処理（人間レビュー）	月 100 件	月 300 件	月 1,000 件	無制限
条項別エビデンス PDF（v1.2 別添3）	容量限定	基本	Full	Full
EU AI Act Art.14(3) 比例原則整合	◎	◎	◎	◎
継続監視（市販後モニタリング）	—	限定枠	標準枠	無制限
SSO / OIDC	—	—	◎	◎
PII マスキング	—	—	◎	◎
改ざん防止ログ（WORM）/ 10 年保持	—	—	—	◎
SLA	—	—	—	◎
オンプレ / BYOC	—	—	—	◎
サポート	コミュニティ	標準	優先	専任

Why now

なんとなく動く AI が
経営リスクに変わった年

v1.2 別添3（HITL がはじめて明文化）と業界エキスパート運用の組織化が同時に効く年。Humanify は 4 つのファクトすべてに同時に応えます。

01 · AI インシデント急増

+56%

主要インデックスでの年間件数伸び

公開データベースで累計 1,200 件超。虚偽生成・誤った推奨による toC 事故が日常化し、品質保証の不在は経営リスクへ直結。

02 · 訴訟・賠償が確定

賠償命令

「チャットボットは別実体」主張は不可

チャットボット出力をめぐる海外裁判例（Air Canada / Moffatt 2024）が確定。「企業本体の表示」と扱われ、導入企業が責任を負う流れ。

03 · 保険が動いた

$25M

Lloyd’s で AI 補償商品が始動

Armilla AI が hallucination・drift・regulatory breach を最大 $25M 補償。引受審査で HITL 設計とサンプリング根拠が問われる時代。

04 · AI 事業者ガイドライン v1.2

別添3

HITL がはじめて明文化

別添3 で人間関与の要件が公式採番（D-X) i, ii, iii の 14 項目）として示され、自社の評価運用が公式条文と 1 対 1 で対応できるようになった。EU AI Act Art.14(3) 比例原則とも整合。

FAQ

よくある質問。

いいえ。AI 事業者ガイドライン v1.2 別添3 B-1)①（p.121）は「人間による判断を受ける機会を確保」と記載しており、全件レビューは要求していません。Humanify のサンプリング設計（5% / 10% / 100% / 条件付き）は、この公式記述をそのまま製品化したものです。さらに B-1)② は「重大な影響を与える手続き」での条件付き人間最終判断を明記しており、 Humanify のリスクベース・サンプリング率設計はこの条件分岐を直接実装しています。

Get started

業界エキスパートと一緒に
LLM アプリの性能を上げる

Free または Pay-as-you-go なら、契約稟議を待たずに今日から始められます。コンプラ部門・年契約での導入は Annual Plan でデモ・調達プロセスに対応します。監査エビデンス PDF は運用ログから自動で生成されます。

お問い合わせ

AIの品質を、人間の目で保証する。

いま AI 品質保証で企業が直面している 3 つの事実

評価しても、改善先が見えない

監査時に提出できる形になっていない

業界専門家が評価から締め出されている

ログ取り込みから監査PDF 出力までの 3 ステップ

ログを取り込む

業界別ペルソナで評価する

条項別エビデンス PDF を出力する

性能改善の運用ログが、そのまま監査エビデンスになる

ペルソナ別のユースケース

自前構築 vs Humanify

Starter から始めて、Pro・Enterprise に育てる

プラン別の機能比較

なんとなく動く AI が経営リスクに変わった年

よくある質問。

業界エキスパートと一緒にLLM アプリの性能を上げる

AIの品質を、
人間の目で保証する。

いま AI 品質保証で
企業が直面している 3 つの事実

ログ取り込みから監査
PDF 出力までの 3 ステップ

性能改善の運用ログが、
そのまま監査エビデンスになる

なんとなく動く AI が
経営リスクに変わった年

業界エキスパートと一緒に
LLM アプリの性能を上げる