AI インシデント追跡｜AI判断を追跡可能にする手順

導入：会議で立ち往生していませんか。結論を先に言います
誤解を壊す：『AIはブラックボックスだから追跡不能』『全部ログ化でOK』は現場でどう崩れるか
判断の分岐点を整理する：証跡・責任・可観測性の具体設計
- 用途から逆算する証跡定義
- 責任分離と可観測性指標
実務判断フロー：検出→記録→一次判断→承認→振り返り（テンプレ付き）
- テンプレ（そのまま運用マニュアルへ貼れる）
PoCで確かめる手順：ChatGPTやClaude Codeを例に短期で検証するチェックリスト
- 1週間PoCの必須保存項目
- 再現性テスト手順
よくある実務FAQ（簡潔回答）
まとめ：会議で先に決めて、1週間で小さく検証する

導入：会議で立ち往生していませんか。結論を先に言います

会議が長引き、対応が止まる典型的な理由は「何を根拠として残すか」「誰が最終責任を取るか」「どの指標で成功を判断するか」が決まっていないからです。対処可能にする最短ルートは、（A）最小証跡の明文化、（B）最終判断者ラインの定義、（C）可観測性KPIの設定、これら三点を会議で即決して1週間のPoCで検証することです。

この記事は議論を先延ばしにせず、現場で追跡・説明可能にするための実務テンプレと判断軸を示します。情シス会議やSIRTのインシデント定例、法務との問い合わせ対応の場で「何を見せれば説明が完結するか」を直ちに判断できるように設計しています。

誤解を壊す：『AIはブラックボックスだから追跡不能』『全部ログ化でOK』は現場でどう崩れるか

結論：両極端は現場で破綻します。追跡可能性は「どの証跡を、誰のために、どれだけ残すか」を会議で決めることで作るしかありません。判断軸は「保存コストと検索性（コスト対再現性）」と「プライバシー対説明可能性（プライバシー対透明性）」です。

モデル内部の重みや学習データを完全に追うことは現実的ではない一方、説明や対応に必要な最小セット（入力、モデル識別子、出力、タイムスタンプ、一次判断者）は確実に残せます。逆に「全部ログ」主義は保管コストと検索不能なデータ量、プライバシー侵害リスクを増やし、振り返りを不可能にします。

現場描写：SIRTの会議でAIが一次切り分けを行ったにもかかわらず議事録にAIの定型出力だけが残り、プロンプトやモデルバージョン、検証者が記録されておらず法務への説明が停止した事例。逆にストレージを過剰に溜め込み監査で該当データを探せず問い合わせに応えられなかった事例もあります。

判断の分岐点を整理する：証跡・責任・可観測性の具体設計

結論：証跡の粒度・保存期間、責任分離、運用の可観測性という三軸で用途別に優先順位を決めれば設計は短時間でまとまります。会議で必ず合意すべき判断軸は「誰が見るか」と「どれだけ長く保持するか」です。

用途から逆算する証跡定義

技術要件ではなく用途（原因追及、法務説明、ユーザー説明）ごとに必要項目を定義し、用途別に最短保存期間とマスク方針を決めます。例として必要項目を整理します：

原因追及：マスク済みプロンプト、モデルID、入力ハッシュ、出力全文、タイムスタンプ、実行環境スナップショット。保存期間：最低90日〜（業種・規制に合わせる）。
法務説明：出力要約＋承認ログ（誰がいつ確認・承認したか）＋マスキング方針の記録。保存期間：法律に準拠。
ユーザー説明：再現に必要な最小セット（再現手順、再現可能性の有無、担当者連絡先）。保存期間：問い合わせ期限＋30日程度。

責任分離と可観測性指標

設計指針：モデル出力は「参考情報」とし、最終決定は人（SIRTリーダー／プロダクト責任者／法務）に置く。承認が必須となる閾値（影響度、公開範囲、法的リスク）を具体的に定義してください。可観測性指標は検出遅延、再現率、監査可能性で計測し、定期レビューで改善します。

実務判断フロー：検出→記録→一次判断→承認→振り返り（テンプレ付き）

結論：各段階で必須の成果物（何をログに残すか）と役割（誰が説明責任を持つか）を決めれば、対応は止まらず振り返りが可能です。承認が遅れる主因は「何が揃えば承認できるか」が定義されていないことです。

テンプレ（そのまま運用マニュアルへ貼れる）

検出（自動／手動）テンプレ
- 検出ID、検出時刻、検出ソース（SIEMルール、監視アラート、ユーザー報告）、簡易影響評価（高/中/低）、初期担当者
記録（AI関与がある場合）テンプレ
- 入力（プロンプト全文またはマスク済みプロンプト）、モデル識別子（モデル名＋バージョン／API応答ヘッダ）、出力全文、タイムスタンプ、実行環境（APIキーIDのハッシュ、リージョン）、担当者の一次コメント（参照理由）
一次判断報告テンプレ
- 一次判断者、判断日時、判断内容（原因仮説）、根拠（AI出力＋補助ログ）、再現手順の有無、推奨アクション
承認申請テンプレ
- 承認が必要な理由（影響度／公開範囲／法規リスク）、承認者リスト（上長／法務／リスク部門）、必要資料（一次判断報告＋元データハッシュ）、承認期限
振り返り報告テンプレ
- 最終結論、再発防止策、証跡一覧（保存場所、保存期間）、KPI（検出遅延、再現率、承認遅延）

現場での失敗例：承認フェーズで法務が追加資料を要求したがプロンプトやモデルバージョンが保存されておらず承認が出ず対応が停止したケース。別のケースでは、全文を保存していたが検索が遅く振り返りが困難になった例。

PoCで確かめる手順：ChatGPTやClaude Codeを例に短期で検証するチェックリスト

結論：PoCは「追跡に必要な最小証跡と運用手順」を検証する場に限定します。PoCで得た再現性とコストを基準に保存粒度と承認ルールを調整してください。PoC成功をもって本番移行の免罪符にしてはいけません。

1週間PoCの必須保存項目

プロンプト全文（機密はマスク。マスク方針は事前に定義）
モデルID＋バージョン（例：ChatGPT APIのモデル名やClaude Codeのリリースタグ）
API応答全文（ヘッダ含む）とステータスコード
タイムスタンプ（UTC）と実行者ID
環境スナップショット（APIキーIDのハッシュ、リージョン、依存ライブラリのバージョン）
コストメタ（リクエストあたりの消費、総コスト）

再現性テスト手順

同じプロンプトで再実行し、出力の主要判断が再現されるかを確認（完全一致は不要）。
パラメータ差分（temperature、top_p等）を一つずつ変えて影響を記録。
APIレートや並列実行がある場合は環境差分（同時実行数）も記録。

注意点：プロバイダがモデルを更新する可能性があるため、モデルIDとリリースノートを保存してください。PoCは追跡性検証の短期作業に限定し、結果をもとに保存粒度と承認ルールを決めます。

よくある実務FAQ（簡潔回答）

Q: AI出力のプロンプトを保存するときの注意点は？

A: 個人情報や機密は保存前に必ずマスクするポリシーを定義します。マスク方式（ハッシュ、トークン置換等）と対象フィールドを会議で決め、誰がマスクするかを運用手順に明記してください。法務が関与する場合は、マスク後でも説明可能な形（ハッシュと該当フィールド名）を残すこと。

Q: 既存のSIEMやログ基盤とどう接続するのが現実的か？

A: まず「最小証跡」をSIEMに送る運用が現実的です。全文はコスト最適化済みの別ストレージに保管し、SIEMにはインデックス化したメタ情報（検出ID、モデルID、タイムスタンプ、ハッシュ）だけを送ります。全文検索はオンデマンドで引き出せる仕組みにしてください。

Q: 承認フローが重くて対応が遅くなる場合、どの判断を自動化または簡略化すべきか？

A: 影響度が低い定型判断や外部公開を伴わない内部調査は一次判断者のセルフ承認に切り替えます。自動化は検出→初期分類、一次報告のテンプレ生成など定型作業に限定し、法務や上長の承認は明確な閾値（公開／PII関与／高影響）を超えた場合のみ必須にしてください。

まとめ：会議で先に決めて、1週間で小さく検証する

導入判断（会議で先に決める3つ）：

最小証跡セット：プロンプト（マスク方針で保存）、モデルID、出力、タイムスタンプ、担当者メモ
最終判断者ライン：SIRTリーダー、プロダクト責任者、法務などを役割と閾値で定義
可観測性KPI：検出遅延、再現率、承認遅延を必須KPIとして設定

1週間PoCの実行順（最小バージョン）：

Day0：会議で3つを即決（最小証跡、最終判断者、KPI）
Day1：PoC環境準備（ログ保存先、マスキングポリシー、コスト上限）
Day2〜5：シナリオ検証（必須保存：プロンプト、モデルID、応答、タイムスタンプ、環境スナップ）と再現テスト
Day6：振り返り（再現率、コスト、承認遅延をKPIで評価）
Day7：次アクション決定（本番化／拡張／見送り）

見送る条件（あらかじめ明文化しておく）：再現率が目標未達、保存コストが許容を超過、法務・規制リスクが解消できない、いずれかに該当すれば見送りとし再試行条件を定めてください。

最後に一言。AI関与の判断を追跡可能にするのは技術的な「魔法」ではなく、証跡の粒度設計・責任分離・運用の可観測性という三つの意思決定です。まず会議で3つを決め、1週間で小さく試し、結果に基づいて保存粒度と承認ルールを固めれば現場は前に進みます。