本記事では、生成AIパスポート試験に頻出する LLM(大規模言語モデル)、トークナイゼーション、画像生成プロンプト の基礎を体系的に整理します。試験で問われる要点を Chapter ごとに解説し、具体例や練習問題も織り交ぜました。合格への近道としてご活用ください。
第1章:生成AIとは何か? ― パスポート試験の文脈で理解する
生成AIパスポート試験では、まず生成AIそのものの定義と、それが既存の識別型AIやルールベースシステムとどう異なるかを理解しているかが問われます。
1‑1.生成AIパスポートの出題意図
出題者は「生成(Generation)と識別(Classification)の違いを説明できるか」「推論(Inference)と訓練(Training)を区別できるか」といった 概念的理解 を重視します。例えば、以下のような設問が想定されます:
- 問: 生成AIと識別AIの主な目的の違いは何か。
- 答: 生成AIは新規データを創出する一方、識別AIは既存データを分類・判断する。
1‑2.LLMと画像生成AIの基本的な役割の違い
大規模言語モデル(LLM)はテキストを生成・補完することに特化し、画像生成AI(例:DALL·E 4、Midjourney V6)はピクセル空間で新規イメージを合成します。試験では「同じ『生成AI』でも入力・出力が異なる」点を押さえましょう。
1‑3.用語整理:生成・識別・訓練・推論
用語 | 定義 | 具体例 |
---|---|---|
生成 (Generation) | モデルが新しいデータを作り出すプロセス | ChatGPTが物語を執筆 |
識別 (Classification) | 入力を既存クラスへ割り当て | 画像から犬猫を判定 |
訓練 (Training) | パラメータを学習し最適化 | GPT‑4oの事前学習 |
推論 (Inference) | 訓練済みモデルによる実運用 | スマホアプリ上で応答生成 |
第2章:LLMの仕組みをひも解く ― Transformerから自己回帰モデルまで
2‑1.Transformerアーキテクチャとは何か
Transformer は 2017 年の論文「Attention Is All You Need」で提案され、自己注意機構により並列計算が可能となったことで LLM の基盤となりました。代表的なブロックは Multi‑Head Attention、Feed‑Forward Network、Layer Normalization です。
例題: 試験では「Transformer の Self‑Attention の利点を 2 つ挙げよ」という問題が出題されます。解答例は「長距離依存関係の学習」「並列処理による高速化」など。
2‑2.自己回帰とマスク言語モデルの違い
自己回帰モデル (AR) は P(x_t | x_{
2‑3.LLMの学習とファインチューニングの実例
近年は 指示調整 (Instruction Tuning) や RLHF(人間フィードバック強化学習)により 対話性能 を向上させます。たとえば、医療チャットボット向けに公開論文コーパスで事前学習した後、医師のフィードバックで RLHF を実施し専門性を高める手法が実用化されています。
豆知識: 試験では「LoRA」「Q‑LoRA」のような軽量ファインチューニング技術が選択肢に並ぶことがあります。
第3章:トークナイゼーションの世界 ― サブワードとBPEの深層
3‑1.なぜトークン化が重要なのか
LLM は 固定語彙 V 上の離散トークン列しか扱えません。未知語を細分化し、長文を可変長ベクトルに圧縮するための鍵がトークナイゼーションです。
3‑2.Byte Pair Encoding(BPE)の仕組み
BPE は頻出バイト列を 段階的にマージ し語彙を構築します。例として、語彙初期化 [l][o][w][
] から [lo][w][
] → [low][
] と結合回数を重ねる様子を図示すると理解が深まります。
例題: 「単語『unbelievable』が BPE で ['un', 'bel', 'ie', 'vable']
に分割された場合、未学習語幹をどう扱うか説明せよ。」
3‑3.Unicode・文字列処理の落とし穴
全角・半角や合字 (ligature) の扱いなど、同一視点問題 が試験の盲点です。例えば「fi」が「f + i」に分解されるかは正規化フォーム (NFKD 等) に依存します。
第4章:画像生成プロンプトの設計 ― テキスト→画像変換の裏側
4‑1.Diffusionモデルの基礎と進化
拡散モデルはノイズ付加と除去の 2 段階で画像を生成します。2022 年の Stable Diffusion 以降、Score‑based Generative Models や Consistency Models が登場し、収束ステップ数を 1/10 程度まで短縮しました。
4‑2.プロンプトエンジニアリングの勘所
良い画像プロンプトは 被写体・スタイル・コンテキスト の 3 要素を具体的に記述します。例:
"A cyberpunk Tokyo alley at night, neon lights, rain-soaked ground, shot on 35mm, cinematic"
否定プロンプト (negative_prompt
) で「blurry」「low‑quality」を避け、高クオリティを担保するのがコツです。
4‑3.モデルごとのプロンプトの相性比較(Midjourney vs. DALL·E)
- Midjourney は スタイライズ パラメータ (
--s 1000
) で作風を制御しやすい。 - DALL·E 4 は 文脈理解 に優れ、複雑な構図の指示も反映しやすいが、アートスタイル の固定はやや苦手。
試験では「同一プロンプトを 2 モデルに投入した際の差異」を図表付きで答えさせる形式が見られます。
第5章:頻出テーマと引っかけポイント ― 過去問分析から見える傾向
5‑1.よく出る単語と問われ方のパターン
・「コンテキストウィンドウ」「露出バイアス」「ハルシネーション」など、英語カタカナ用語が頻出です。
5‑2.用語の混同を避けるコツ
「モデル」と「アルゴリズム」の違いを明確に区別しましょう。例えば、Diffusion はアルゴリズム、Stable Diffusion はそのアルゴリズムを実装したモデルです。
5‑3.実際の模擬問題でトライ!
- Transformer における
Positional Encoding
の役割を 2 行以内で述べよ。 - 次の単語列を BPE で 2 回マージするとき、最終的なトークン列を答えよ:
th e r e ##for e
- プロンプト
"A vintage poster of a rocket launching from Mount Fuji"
を Midjourney と DALL·E で生成した場合、出来上がる画像の違いを 2 点挙げよ。
以上で基礎知識編は終了です。過去問を反復しながら、本記事のポイントを口頭で説明できるレベルまで落とし込みましょう。次回は「応用編」として RAG やエージェント設計を取り上げます。
コメント