生成AIに送ってよいデータの判断基準

生成AIの社内利用で最初に詰まるのは、「このデータを入力してよいか」を現場が判断できないことです。問い合わせメール、管理画面のスクリーンショット、契約書PDF、帳票OCRの結果などは、便利に処理できる一方で、個人情報、認証情報、顧客固有情報、契約上の秘密が混ざりやすい領域です。

結論から言うと、生成AIに入力するデータは「公開情報で判断できるもの」「サービス公式仕様で確認するもの」「自社契約・社内規程で決めるもの」に分けて管理します。特にログ保存期間、DPA、SLA、学習利用の可否、国外移転の扱いは、公開ページだけでは自社に適用される条件を断定できない場合があります。そのため本記事では、入力してよいデータ、止めるデータ、条件付きで使うデータを分けたうえで、契約書、DPA、管理画面、社内規程で確認すべき項目まで整理します。

出典：
https://www.meti.go.jp/shingikai/mono_info_service/ai_shakai_jisso/20260331_report.html
https://www.ppc.go.jp/news/careful_information/230602_AI_utilize_alert/

まず分けるべき3種類のデータ
サービスごとに確認すべきポイント
場面別の入力ルール
PoC前に決める承認フロー
そのまま使える申請テンプレート
PoCチェックリスト
まとめ：生成AIのデータ基準は「入力前」に決める

まず分けるべき3種類のデータ

実データを扱う情シスとして痛感するのは、「入れてよいか迷う時点で、たいてい入れない方が安全」だということです。ルール表をきれいに作るよりも、迷ったらマスキングするか相談に回す、という運用にしておくほうが現場では事故が減ります。

実データをSQL Serverで扱う立場として、AIに渡す前のデータ分類とマスキングは毎回いちばん気を遣います。氏名、顧客ID、契約金額のような列は、AIに入れる前にダミー値へ置換するか、そもそも対象から外します。「匿名化したつもりで再識別できてしまう」のが一番怖いので、単体の項目だけでなく、組み合わせで個人や取引先が特定できないかまで確認します。具体的には、まず列ごとに「そのまま使えるか」「マスキングすれば使えるか」「そもそも除外すべきか」を分けています。

AI投入前のデータ分類とマスキング方法を整理した判断表

「個人情報をマスクしたから安全」と考えると危険です。個人情報保護委員会のガイドラインでは、匿名加工情報を作成する際、特異な記述の削除や、データベースの性質を踏まえた追加措置が必要になる場合があるとされています。つまり、氏名やメールアドレスを消すだけでは、部署、役職、地域、購買履歴、病歴、問い合わせ内容の組み合わせから本人が推測される可能性が残ります。

出典：
https://www.ppc.go.jp/personalinfo/legal/guidelines_anonymous/

分類	例	生成AIへの入力判断	現場での扱い
赤：送信不可	氏名、住所、電話番号、メールアドレス、顧客ID、口座番号、認証トークン、パスワード、秘密鍵、未公開の契約条件	外部生成AIへそのまま入力しない	削除、置換、社内専用環境での処理、または人手処理に切り替える
黄：条件付き	部署名、役職、地域、年齢帯、問い合わせ分類、注文傾向、エラー内容、画面ID	組み合わせで個人・顧客・取引先が推測されないか確認してから利用	マスク、一般化、トークン化、再識別チェック、承認ログを必須にする
緑：送信可	公開済みFAQ、製品マニュアルの公開部分、社内で公開扱いの手順書、個人や契約を特定しないサンプル文	通常利用可。ただし社内ルールに従う	出典、利用目的、使用ツールを記録する

迷った場合は、黄ではなく赤として扱います。生成AI導入を止めないためには、現場が勝手に判断する余地を減らし、「赤は入力禁止」「黄は承認付き」「緑は通常利用」という線引きを先に決めることが重要です。

サービスごとに確認すべきポイント

生成AIサービスは、同じ提供元でも個人向け、法人向け、APIでデータの扱いが異なります。たとえばOpenAIは、APIに送信されたデータについて、2023年3月1日以降、明示的にオプトインしない限りモデルの訓練・改善に使わないと公式ドキュメントで説明しています。また、ChatGPT Business、ChatGPT Enterprise、ChatGPT Edu、API Platformなどのビジネスデータも、既定では訓練に使わないと説明されています。

出典：
https://developers.openai.com/api/docs/guides/your-data
https://openai.com/enterprise-privacy/

Anthropicも、Claude for WorkやAnthropic APIなどの商用製品では、既定で入力・出力をモデル訓練に使わないと説明しています。一方、Claude Free、Pro、Max、およびそれらのプランでClaude Codeを使う場合は、ユーザーが許可した場合や安全性レビューに該当する場合など、利用条件が異なるため、個人向けアカウントを業務利用する設計は避けるべきです。

出典：
https://privacy.claude.com/en/articles/7996868-is-my-data-used-for-model-training
https://privacy.claude.com/en/articles/10023580-is-my-data-used-for-model-training

確認項目	公開情報で確認できること	自社で確認すべきこと
学習利用	公式ドキュメント上の既定設定、オプトイン有無	自社テナントでの設定、管理者設定、例外的なフィードバック送信
ログ保存	サービス一般のデータ保持説明	自社契約上の保持期間、管理者が変更できる範囲、削除依頼時の扱い
ゼロデータ保持・拡張監視設定	提供有無や対象機能の概要	自社プランで利用できるか、対象API・対象機能・例外ログがあるか
国外移転・委託先	公開されているプライバシー説明、サブプロセッサ情報	自社DPAの適用範囲、委託先・再委託先、データ所在地、リージョン指定の可否
SLA・障害時対応	公開プランの概要	自社契約上のSLA、サポート窓口、障害時の連絡ルート、復旧目標

場面別の入力ルール

1. 問い合わせメール・チャット履歴

問い合わせ対応で最も危ないのは、本文を丸ごと貼り付ける運用です。氏名や連絡先だけでなく、注文番号、顧客ID、過去の対応履歴、地域、契約プラン、障害発生日の組み合わせから顧客が特定されることがあります。

赤：顧客名、メールアドレス、電話番号、住所、顧客ID、注文番号、契約番号
黄：問い合わせカテゴリ、発生時期、製品名、利用環境、エラー内容
緑：公開FAQ、個人・契約を含まない一般的な回答案

運用ルールは「原文を入力しない」「必要箇所だけを要約して入力する」「回答案は人が確認してから送信する」の3点を最低ラインにします。

2. 管理画面のスクリーンショット

スクリーンショットは、見落としが発生しやすいデータです。画面の端にユーザー名、メールアドレス、セッションID、APIキー、管理者権限の表示が写るだけで、送信不可になります。

送信前に、マスク対象フィールドの一覧を画面単位で作る
パスワード、トークン、Cookie、セッションID、APIキーは例外なく赤にする
管理者画面は、画面所有部署と情報セキュリティの承認を必須にする

3. PDF・帳票・OCR結果

PDFや帳票は、氏名・住所・口座情報・取引先名・契約条件が混在しやすいため、OCR後のテキストをそのまま生成AIに渡さない設計が必要です。要約や抽出に使う場合でも、原票ID、抽出フィールド、確認者をログに残し、出力結果を原票と突合します。

送信してよいのは「AIに処理させる目的に必要な最小限の情報」だけです。原本、全文、全画面、全履歴を渡す運用は、便利でも監査に耐えにくい運用です。

PoC前に決める承認フロー

PoCは「小さく始める」だけでは不十分です。開始前に、対象業務、入力データ、除外データ、利用サービス、評価指標、ログ項目を決めます。総務省・経済産業省のAI事業者ガイドライン第1.2版では、AIの開発・提供・利用に関する取組の基本的な考え方が示されています。社内利用でも、リスクを見える化し、関係者が同じ基準で判断できる状態にしておくことが重要です。

出典：
https://www.meti.go.jp/shingikai/mono_info_service/ai_shakai_jisso/20260331_report.html

承認段階	見る人	確認すること	止める条件
業務承認	業務責任者	目的、対象業務、期待効果、誤回答時の影響	人が確認できない業務、誤回答で顧客不利益が出る業務
法務・個人情報確認	法務、個人情報管理担当	個人情報、契約上の秘密、第三者提供、委託の扱い	根拠なく個人情報を外部送信する運用
情報セキュリティ確認	情シス、セキュリティ担当	認証、権限、ログ、データ保持、管理者設定	管理者が利用状況を追跡できない運用
本番移行判定	業務責任者、法務、情シス	PoC結果、逸脱件数、改善策、運用担当	承認者・停止条件・監査方法が未定のまま

そのまま使える申請テンプレート

申請業務名：＿＿＿＿＿＿
利用目的：＿＿＿＿＿＿
利用する生成AIサービス名・プラン：＿＿＿＿＿＿
対象データ：＿＿＿＿＿＿
入力禁止データ：＿＿＿＿＿＿
データ分類：赤／黄／緑
黄の場合の条件：マスク／一般化／トークン化／人手確認／その他＿＿＿＿＿＿
利用者範囲：＿＿＿＿＿＿
出力結果の確認者：＿＿＿＿＿＿
ログ項目：入力日時、利用者ID、利用サービス、入力分類、出力分類、承認者ID、原票ID（該当時）
ログ保存期間：問い合わせ対応、監査対応、事故調査、契約上の保存義務をもとに設定した保存期間を記載
DPA・契約条件：学習利用の有無、保存期間、削除方法、データ所在地、サブプロセッサ、管理者の閲覧範囲を確認して記載
承認者：業務責任者＿＿＿／法務＿＿＿／情シス＿＿＿

PoCチェックリスト

個人情報・契約情報・認証情報を赤として定義したか
黄データのマスク、一般化、トークン化の方法を決めたか
利用するサービスの公式ドキュメントで、学習利用とデータ保持の説明を確認したか
個人向けアカウントを業務データ処理に使わない方針にしたか
出力結果を誰が確認するか決めたか
ログ項目、保存期間、閲覧権限を決めたか
誤回答、情報混入、規約変更、障害時の停止条件を決めたか

まとめ：生成AIのデータ基準は「入力前」に決める

生成AIのデータ取り扱いで重要なのは、便利な使い方を禁止することではありません。現場が迷わず使えるように、入力禁止データ、条件付きデータ、通常利用できるデータを先に分けることです。

特に、匿名化やマスクは万能ではありません。個人情報保護委員会のガイドラインが示すように、特異な記述やデータベースの性質によっては、追加の加工が必要になる場合があります。サービス仕様も、個人向け、法人向け、APIで異なります。したがって、情シスは「ツールを許可するか」だけでなく、「どのデータを、どの条件で、誰が承認して、どのログを残して使うか」までをセットで設計する必要があります。

最初の一歩は、赤・黄・緑の分類表を社内の申請書に組み込み、PoC開始前に業務責任者、法務、情シスの3者で確認することです。ここまで決めておけば、生成AI活用は止めずに、監査に耐える形で進められます。

生成AIに入力してよいデータ・止めるデータの判断基準｜情シス向け実務ガイド