AI応答失敗復旧

はじめに
誤解を壊す：ベンダー任せは危険
- 影響度分類（例）
判断軸：自動化するか手動に残すか
問い合わせ対応窓口の実務プレイブック
PoCでの再現・復旧リハーサル
- PoCチェックリスト（必須）
運用設計とローリング
- 推奨設計（目安）
まとめと現場での一歩

はじめに

現場でよくある誤解は「誤応答は稀だからベンダー任せで良い」というものです。運用現場では誤応答が発生した瞬間の初動権限や対応フローが未整備だと、短時間で影響が拡大しSLA違反や監査指摘につながります。本稿は運用担当者が即実装できる判断軸と現場プレイブックの雛形を、問い合わせ・画面確認・PDF/帳票といった具体場面に即して示します。

誤解を壊す：ベンダー任せは危険

結論として、重大影響の事象は運用側が即停止・切替できる権限を持つべきです。契約時に最低限の権限セットを1ページで定め、承認を得ておきましょう。現場で発生する典型的な失敗パターンは次の通りです。

夜間に大量誤通知が出たがオンコールに止める権限がなく、ベンダー問い合わせ待ちになってSLA違反に。
重要ワークフローで初動ルールが未定義で、エスカレーション遅延により業務停止に波及。

運用側で決めるべき最低項目は「対応主体」「影響範囲（A/B/C）」「即時権限（セッション停止・モデル切替・ログ取得）」です。例として経営向けの1ページ分類を用意し承認を取ってください。

影響度分類（例）

A（即時対応／重大）: 顧客資金・認証・大量誤通知。初動オーナー=運用オンコール。受領15分以内、初期緩和60分以内。現場権限：即時セッション停止・モデル切替。
B（営業日対応／中）: 個別誤案内で業務継続可能。オーナー=窓口SLA担当。一次対応目標：4営業時間以内。
C（ログ収集／軽微）: 表示崩れ・軽微文言。オーナー=定例レビュー。週次サマリで対応検討。

判断軸：自動化するか手動に残すか

自動化可否は「影響範囲スコア」と「検知の真陽性率（TP率）」の二軸で判定します。数値基準を決めれば実装判断が早くなります。

影響範囲スコア算出例

顧客影響（0–5）、金額影響（0–5）、業務停止時間（0–5）を合算し0–15で評価。
判定閾値（例）:
- スコア ≤ 4かつTP率 ≥ 85% → 自動復旧可（自動ロールバック等）。
- スコア 5–7 → 検知自動化、復旧はオペレーター承認。
- スコア ≥ 8 → 手動必須（オンコール介入）またはベンダー即エスカレーション。

TP率の実務的な測り方（30日サンプル）

収集：運用検知でフラグされたイベントを全件保存（検知時刻・リクエストID・モデル・出力）。
ラベリング：オンコールまたはレビューで真陽性(tp)／誤検知(fp)を手動ラベル付け（サンプリング可）。
計算例：TP率 = tp 件数 ÷ 検知フラグ件数。例：検知200件のうち真陽性170件 → TP率 85%。

SELECT
  SUM(CASE WHEN human_label='tp' THEN 1 ELSE 0 END) AS tp,
  SUM(CASE WHEN flagged=1 THEN 1 ELSE 0 END) AS flagged,
  (SUM(CASE WHEN human_label='tp' THEN 1 ELSE 0 END)::float / NULLIF(SUM(CASE WHEN flagged=1 THEN 1 ELSE 0 END),0)) * 100 AS tp_rate
FROM detection_events
WHERE created_at >= now() - interval '30 days';

誤検知コストの簡易試算

例：平均対応コスト1件=5,000円、想定誤検知率=15%、想定検知回数/年=10,000 → 年間誤検知コスト=7,500,000円。自動化投資と比較して判断する。

モデル差の扱いはモデルごとにTP/FPを実測し、A/Bテストで切替時の挙動を確認します。例えばChatGPT系は日付・数値の二重チェック、Claude系は表形式の列整合を重点に見る等の観点を運用チェックに取り入れてください。

問い合わせ対応窓口の実務プレイブック

受領直後に必ず行うのは「必須情報取得（テンプレ化）→即時止め判定→証拠保全」です。これだけで再現不能や長期化を大幅に減らせます。

受領3分以内に取得する必須項目（そのまま使えるテンプレ）

発生日/時刻（JST）例 2026-03-18T14:23:00+09:00
ユーザーID／顧客ID、影響範囲（例：顧客数=12）
ユーザー入力（プロンプト）とAPIリクエストペイロード（マスク可）
モデル名・バージョン・セッションID
出力の証拠（スクリーンショット、PDF/帳票ファイル）保存先例：/incidents/20260318_A/12345_output.png
即時回避策の有無（会話停止／モデル切替／手動テンプレ回答）

一次対応SLAと手順（コピペ可能）

受領 → 必須情報取得（目標3分）
即時止め判定：影響スコアで判断（Aなら即セッション停止・モデル切替・オンコール通知）
証拠保全：スクショ保存、出力ファイルアップ、ログ取得依頼チケット発行
仮復旧：ユーザー向け暫定対応テンプレ送付
エスカレーション：オーナーに引き継ぎ。Aはオンコール対応で経営報告準備

エスカレーションチケット例（貼れるフィールド）

タイトル：A: 大量誤通知 – 2026-03-18 14:23 JST
概要：影響範囲=12顧客、発生時刻、入力原文（マスク可）、出力ファイル=/incidents/20260318_A/12345_output.png、モデル=chat-model-v2、セッションID=abc123
最初の対応：セッション停止（済）、モデル切替（未）、暫定案内送付（済）
次のアクション（担当者／期限）：オンコール佐藤／60分以内で一次報告、ベンダー連絡要否=Yes

タイムスタンプ・セッションID・入力原文が取得できない問い合わせは優先度を上げ、取得できるまで調査開始を保留する運用ラインを設けてください。

PoCでの再現・復旧リハーサル

結論：PoCはAPIの成功レスポンスだけで終わらせず、UIレンダリング・PDF/帳票出力まで含めたエンドツーエンド再現と復旧リハーサルを必ず一回実施すること。再現できない差分は本番で高確率で問題になります。

PoCチェックリスト（必須）

入力保存→再現性チェック：同一入力で同一出力が得られるかを確認
時系列ログ追跡：リクエスト／レスポンス／モデル名／セッションIDを照合可能にする
PDF/帳票の目視差分検証：レイアウトや通貨表記など差分を記録するフォーマットを用意
A/Bチェック：想定モデル差を比較し切替と戻し手順を確認（ChatGPT系とClaude系の出力差を想定）
復旧リハーサル：事実誤り、帳票崩壊、個人データ露出など最低3ケースを通す

PoCで再現できなかった不具合は本番で高確率で発生するため、チェックリストと差分例は運用ドキュメントの付録に流用してください。

運用設計とローリング

導入直後に決めるべきはモニタリング項目、アラート閾値、ログ保持期間、定期リハーサル頻度です。これらを週次レビューで改善する運用ループを回さないと自動化拡大で破綻します。

推奨設計（目安）

アラート設計：即通知はオンコールへ。例条件：1時間以内に同一症状で3顧客以上影響、または誤応答率が総リクエストの5%以上
ログ保持目安：入力テキスト90日、APIリクエスト/レスポンス90日、セッション履歴1年
運用KPI例：誤応答率目標 < 0.5%、MTTR Aインシデント ≤ 120分
ローリング方法：重要ワークフロー1つに絞り、週次の小さな復旧リハーサルを回して改善点を洗い出す

まとめと現場での一歩

導入判断は影響範囲と検知可能性をスコア化して行う。高影響かつ検知が難しいワークフローは自動化を見送る。
自動化は影響小・検知容易・誤検知コストが低いケースから段階的に広げる。
まず最重要ワークフロー1つを選び、代表プレイブックを作ってPoCで必ず初動から復旧まで一回通すこと。『誰が何分で何を止めるか』を一枚にまとめれば被害を止め信頼を守れます。

運用担当が実装するAI応答失敗の復旧プレイブック例