生成AI 指示階層

導入：プロンプト万能論で本番導入が止まっていませんか
プロンプト万能論を壊す：現場で起きる失敗パターン
判断軸と3段階の指示設計（ルール→テンプレ→対話）
- 各層の実務定義（会議資料に貼れる形）
- テンプレ（問い合わせ一次応答）の会議用雛形
出力種別別の運用ルールとエスカレーションフロー
PoCから本番へ：承認基準・キックオフとチェックリスト
最初の運用アクションと見送る条件
まとめ
FAQ（現場ですぐ使える短問答）

導入：プロンプト万能論で本番導入が止まっていませんか

「プロンプトを一発でチューニングすれば全部解決する」「AIに任せきりで人は不要」──この誤解でPoCは通っても本番が止まる現場を何度も見てきました。本稿では、運用現場で即決できる判断軸（自動化レベル／検査コストの算出式／エスカレーション先とSLA）を示し、ルール層→テンプレ層→対話層の設計図と具体テンプレ例を提供します。読了後は、会議で「何をもって人に渡すか」を即決できるようになります。

この記事で得られること（短く）：1) 出力種別ごとの必須検査項目とサンプル閾値、2) 各閾値に対応する担当者と初動SLA、3) PoCから本番へ移すための2週間チェックリスト。まずは『誰が何分で止めるか』を定量化してください。これが次の一手の全てです。

プロンプト万能論を壊す：現場で起きる失敗パターン

結論：プロンプト改善は重要ですが最優先は「失敗時に誰が何分で動くか」を出力種別ごとに決めること。まず失敗シナリオを2〜3件列挙し、責任者と初動SLAを決めてください。

頻出の失敗パターン（会議で即使える短縮版）：

問い合わせ：住所正規化で配送先フォーマットが変わり誤送。ロールバック担当が未定で復旧遅延。
PDF帳票：OCR→合計再計算で小数点丸め差が発生し請求額不一致。即時チェックが無く顧客請求ミス。
画面判定：UIラベル微差を見落とし古い手順を案内。主要要素の優先度が未定。

会議で合意する実務優先順：

出力種別ごとの検査コスト算出（式とサンプル値を用いる）
対応担当の権限と初動SLA（誰が決定・実行できるか）
許容誤出力率（KPI）—業務インパクトに応じ数値化する

検査コストの簡易算出式（会議で即使える）：

検査コスト（月, 人時） = 件数見積り（月件数） × 1件あたりの検査時間（分） / 60

例：問い合わせAI自動応答1000件/月、1件あたり検査時間（サンプル）＝3分 → 検査コスト = 1000×3/60 = 50人時/月。ここで「期待効果（時間削減×単価）」を上回るなら自動化候補とします。

判断軸と3段階の指示設計（ルール→テンプレ→対話）

結論：運用は三層で分け、層ごとに責任とトリガーを固定します。ルール層は不可侵事項、テンプレ層は定型＋検査項目、対話層は例外対応のみ。ルール違反は即ブロック、テンプレ逸脱は人確認、対話は事前定義したトリガーでのみ許可します。

各層の実務定義（会議資料に貼れる形）

ルール層：NGワード／個人情報返却禁止／金額操作不可／即時停止トリガー。承認済みチェックリスト外の出力は自動化しない。
テンプレ層：応答枠＋必須確認項目＋自動判定フラグ（例：FAQ一致率）。テンプレ逸脱は自動化禁止で人確認へ。
対話層：テンプレ未解決かつ事前定義した例外条件（しきい値を超えたとき）のみ開く。人が主導してAIを補助的に使う。

テンプレ（問い合わせ一次応答）の会議用雛形

テンプレ名: 問い合わせ一次応答（3段）
- 応答文: {FAQ要約}{短補足}{次アクション}
- 必須確認項目:
  - 原文保持: true/false
  - 氏名一致: matched/unmatched
  - 取引ID: yes/no
  - 要件分類: {請求/配送/故障/その他}
- 自動化条件:
  - FAQ一致率 ≥ 80% AND 氏名一致=matched AND 取引ID=yes
- エスカレーション:
  - 条件未達→担当オペレータ（初動 ≤15分）
  - 個人情報疑い→SRE/情シス＋法務（即時）

モデル選定の一言：出力検査のしやすさを最優先に。会話整形が目的なら対話モデル、構造化出力やコードは構造化出力に強いモデルを選ぶ。ただし最終判断は「そのモデルで検査項目が自動化できるか」で決めます（ChatGPTやClaude Codeなどの使い分けも、検査のしやすさを基準に検討してください）。

出力種別別の運用ルールとエスカレーションフロー

結論：出力種別ごとに『検査項目』『しきい値』『エスカレーション先＋SLA』をテンプレ化し、問い合わせから段階的に拡張します。まず問い合わせで基準を満たしてから画面→PDF→コードへ進めてください。

問い合わせ（テキスト回答）

必須検査項目：原文保持フラグ、氏名一致、取引ID存在、FAQ一致率
推奨しきい値（サンプル）：FAQ一致率≥80% かつ必須項目全通過→自動応答。どれか欠けたら即エスカレーション。
エスカレーション：担当オペレータ初動 ≤15分。個人情報リスク＝即SRE/情シス＋法務連携。

防止策実例：氏名正規化は原文保持必須にして差分検査を行う。会議でフォーマット（姓／名／カナ）と照合アルゴリズムを決めてください。

画面確認（スクリーン出力・ビジュアル判定）

必須検査項目：主要要素リスト（優先度付け）、UI要素数差分、主要テキスト一致、OCR主要キー精度
推奨しきい値（サンプル）：主要要素差分率>5% または OCR精度<90% → SREへ（SLA：1時間以内初動）。軽微差（1〜5%）は自動＋週次監査。
エスカレーション：SRE→営業（顧客影響時）に即報告。

運用ポイント：主要要素を優先度1〜3で整理し、優先度1は自動チェックで常時パス必須。差分の定義（DOM要素数、テキストハッシュ等）を会議で固めておきます。

PDF・帳票（レイアウトと数値整合性）

必須検査項目：数値整合性（合計・小計）、小数点処理ルール、項目欠落チェック
推奨しきい値（サンプル）：数値差分率>0.1% は人確認。レイアウト崩れ（項目欠落・移動）は帳票担当へ30分以内に連絡。
エスカレーション：帳票担当→SRE/情シス→営業/法務（顧客対応判断）

自動検査実装例：OCR抽出値と原票のキー値一致率を計算し、閾値（例：一致率95%）未達は自動フラグ。会議で閾値と「重大」基準（例：請求金額誤差が1,000円超など）を決めてください。

コード（スクリプト・設定生成）

必須検査項目：構文チェック、静的解析（Lint）、セキュリティスキャン、最低限のユニットテスト
推奨しきい値（サンプル）：High/Critical警告が出れば即ブロック。自動マージは禁止。
エスカレーション：SRE/開発へ即通知、24時間以内に初動（パッチ等）

CIルール（会議で承認可能な定義）：syntax-check → lint（High/Criticalでブロック）→ security-scan（HighでPR停止）→ tests（カバレッジ最低ライン例：70%）。

PoCから本番へ：承認基準・キックオフとチェックリスト

結論：本番移行は「定量的判定基準」と「キックオフでの役割固定」が揃えば進みます。PoCで集めた誤出力ログをチェックリスト化し、最低2週間の運用サンプルでKPIを検証してください。

キックオフで決める最小セット（会議で即決できる箇条）：

役割：最終判断＝サービス責任者、技術対応＝SRE/情シス、法務判断＝法務チーム、オペ実務＝問い合わせ担当
KPI例（サンプル）：問い合わせ誤出力率≤2%、平均初動時間≤15分、PDF数値差分率≤0.1%
監査ログ項目（必須）：timestamp、入力原文、AI出力、検査結果フラグ、エスカレーション先、初動時間

PoC判定手順（実務手順・2週間）：テンプレ投入→誤出力を分類→再現率を測定→KPI達成なら段階展開、未達ならルール・テンプレ・体制を修正。事前合意があれば承認判断はぶれません。

最初の運用アクションと見送る条件

結論：最初の一歩は「問い合わせの3段テンプレ作成＋2週間サンプル計測」。問い合わせが基準を満たすまでは他の出力を広げないでください。

即実行できるチェックリスト（キックオフで決める項目）：

キックオフ出席：サービス責任者、SRE/情シス、オペ担当、法務（最終承認者を明確に）
テンプレ作成：問い合わせ用3段テンプレを作り会議で承認
監査設計：監査ログフィールドを定義し週次でレビュー
PoC再現：2週間サンプルで誤出力率・初動時間・エスカレーション頻度を測定

見送るべき条件（事前に数値化しておく）：

検査コスト（月）が期待効果を上回る（例：検査工数が月40人時を超える）
法令・契約で自動化が禁じられている／法務が許容しないリスクが残る
SLAが現状体制で守れない（初動や復旧時間が基準超過）

判断の最終基準は常に「業務インパクト」と「検査コストの採算性」。小さく始めて定量で判断し、改善を回して拡張するのが現場で失敗しない進め方です。

まとめ

要点を短く整理します。1) まず『誰がいつ止めるか』を出力種別ごとに決める（担当＋初動SLA）。2) ルール層→テンプレ層→対話層で指示範囲を分離し、テンプレには必須検査項目と自動化条件を入れる。3) 各出力に対して『検査項目』『しきい値』『エスカレーション先＋SLA』のテンプレを作り、問い合わせから段階的に展開する。

最初の一手：問い合わせの3段テンプレを作り、2週間のサンプルで誤出力率と対応時間を計測してください。ここでKPIを満たせば次の段へ進み、満たさなければルール・テンプレ・体制を修正します。道具（プロンプトやモデル）は重要ですが、まずは誰が何分で止めるかを決めてください。ルールが無ければ、優れたプロンプトもただの工具箱に終わります。

FAQ（現場ですぐ使える短問答）

テンプレ逸脱が発生したらどうする？
テンプレ自動化条件を満たさない出力は即エスカレーションし、担当オペレータの初動は≤15分が目安です。個人情報疑いは即SRE/情シス＋法務へ報告します。
PoCから本番移行の最低期間は？
最低2週間の運用サンプルで誤出力を分類・再現率を測定し、KPI達成を確認してから段階展開します。
モデルはどう選べばいい？
「検査項目が自動化できるか」を基準に選びます。会話整形は対話モデル、構造化出力やコード生成は構造化出力に強いモデル（必要ならChatGPTやClaude Codeの特性も考慮）を検討してください。

現場で効く生成AIの指示階層と失敗時エスカレーション設計