評価しても、改善先が見えない
スコアは出るが、誰がどこを直せばよいか追跡できない。Excel や Notion での評価運用は人数が 10 人を超えるとほぼ確実に破綻する。
スコアは出るが、誰がどこを直せばよいか追跡できない。Excel や Notion での評価運用は人数が 10 人を超えるとほぼ確実に破綻する。
評価ログはあっても、AI 事業者ガイドライン v1.2 別添3 の条項にマッピングされていなければ、監査人は読まないし受け取らない。
医師・弁護士・編集者・CS マネージャー —— AI 出力の価値判断ができる人ほど、エンジニア向けの評価ツールを触れない。
ログ取り込み → 業界別ペルソナで評価 → 条項別エビデンス出力。 既存の観測層(Langfuse 等)とも補完関係で連携できます。
Python SDK 5 行、または OpenTelemetry エンドポイント。既存の観測層からのインポートにも対応します。プロンプト・出力・メタデータ(業界ペルソナ、信頼度スコア等)を一気に投入。
from humanify import Humanify
hf = Humanify(api_key="...")
hf.log(prompt=p, output=o,
metadata={"persona": "medical"})LLM Judge が一次選別、人間サンプリング(5% / 10% / 100% / 条件付き)が二次レビュー。医療・法務・金融・公共・CS の業界別ルーブリックを同梱。Pairwise 比較/Single-run rubric/IAA(評価者間一致度)を1ツールで。
AI 事業者ガイドライン v1.2 別添3(D-X) i, ii, iii の 14 項目)への条項別マッピングを自動生成。EU AI Act Art.14(3) 比例原則とも整合します。改ざん防止ログ(WORM)として 10 年保持(Enterprise 同梱)、監査用パッケージはワンクリック。
HITL ワークフローを回すだけで、条項別エビデンスは運用ログから自動で蓄積されます。 全件人間レビューは公式に求められていません。AI 事業者ガイドライン v1.2 別添3 B-1)①(p.121)は「人間による判断を受ける機会の確保」と記載しており、Humanify のサンプリング設計(5% / 10% / 100% / 条件付き)はこの公式記述をそのまま製品化したものです。
「AI での判断だけでなく、当該個人が人間による判断を受ける機会を確保」— AI 事業者ガイドライン v1.2 別添3 B-1)① p.121
条項別マッピングは Pro 以上に同梱、改ざん防止ログ(WORM)の 10 年保持は Enterprise に同梱します。監査時はワンクリックで PDF パッケージを出力できます。
PM/情シスから本決裁のコンプラ部門まで、決裁構造の異なる 2 層と、 実際に評価する業界別エキスパートの計 3 つのペルソナを 1 つのプラットフォームでカバーします。
モデル切替前の回帰テスト、新プロンプトの A/B 比較、リリース前のセルフ品質チェック。エンジニアと業務オーナーが同じダッシュボードで意思決定する。
観測層 OSS + Excel / Notion 運用 + 規制対応コンサルで構築する場合の、 実装・運用・更新負荷を Humanify と並べて比較します。
※ 自前構築は中堅企業(評価者 20〜30 名規模)で内製した場合の試算。実装 4〜6 ヶ月+年間運用 0.5〜1 FTE 相当の負荷を含む。Humanify 側の Enterprise コミット額は要件により変動するため、LP では価格非公開とし、ご要件に応じて個別ご提案します。
LLM Judge は全プラン共通でクレジット込み + 超過は使った分だけ(¥10/件、Pro は ¥8/件、Enterprise はカスタム)。HITL 処理数と規制対応機能の充実度で Starter / Pro を棲み分け、Enterprise は全部のせ+オンプレ/BYOC/SLA/カスタム実装に対応します。業界エキスパート招待は座席課金なし・全プラン無制限です。
v1.2 別添3(HITL がはじめて明文化)と業界エキスパート運用の組織化が同時に効く年。Humanify は 4 つのファクトすべてに同時に応えます。
公開データベースで累計 1,200 件超。虚偽生成・誤った推奨による toC 事故が日常化し、品質保証の不在は経営リスクへ直結。
チャットボット出力をめぐる海外裁判例(Air Canada / Moffatt 2024)が確定。「企業本体の表示」と扱われ、導入企業が責任を負う流れ。
Armilla AI が hallucination・drift・regulatory breach を最大 $25M 補償。引受審査で HITL 設計とサンプリング根拠が問われる時代。
別添3 で人間関与の要件が公式採番(D-X) i, ii, iii の 14 項目)として示され、自社の評価運用が公式条文と 1 対 1 で対応できるようになった。EU AI Act Art.14(3) 比例原則とも整合。