深層学習とTransformerの進化を整理｜CNN・RNNからスケーリング、その先まで

深層学習の歴史を振り返ると、単に新しいモデルが次々に登場したというより、データ量・計算資源・アーキテクチャ設計の三つがそろうたびに大きな転換点が生まれてきたことがわかります。2010年代前半にはCNNが画像認識を大きく押し上げ、続いてRNNやLSTMが系列データ処理の主役になりました。そして2017年にTransformerが登場すると、自然言語処理を中心に、音声、画像、マルチモーダル、さらにはエージェント的な応用まで含めて、深層学習の中心的な設計思想が一気に塗り替えられました。現在では、大規模モデルの多くがTransformer系を土台にしつつ、Mixture-of-Experts、長文コンテキスト、マルチモーダル化、ツール利用、さらには線形時間系列モデルのような代替案まで含めた広い競争が進んでいます。本記事では、その流れを過度に細部へ入りすぎず、実務でも研究キャッチアップでも使いやすい形で整理します。

この記事の見取り図

前半では深層学習の発展史と、CNN・RNNからTransformerへ移った理由を押さえます。後半では、Transformerがなぜ強いのか、スケーリングで何が変わったのか、そして次の競争軸がどこにあるのかをまとめます。

第1章：深層学習の発展をざっくり俯瞰する
第2章：CNN・RNNからTransformerへの流れ
第3章：Transformerが強い理由を分解する
第4章：スケーリングで何が変わったのか
第5章：次に注目すべき発展方向

第1章：深層学習の発展をざっくり俯瞰する

深層学習の発展をざっくり見るなら、まずは「表現学習が手作業の特徴量設計を置き換えていった流れ」として理解するとわかりやすいです。従来の機械学習では、人が画像の輪郭や色ヒストグラム、文章のn-gram、音声の周波数特徴などを作り込み、その上で分類器を学習させる流れが主流でした。ところがニューラルネットワーク、とくに多層化した深層学習は、入力から中間表現を自動的に学び、より高次の概念まで階層的に表せるようになりました。これによって、特徴量設計の比重が下がり、データと計算資源をうまく使うほど性能が伸びる時代へ入っていきます。

大きな転換点としてよく挙げられるのが、2012年のAlexNetです。AlexNetはImageNetの大規模画像分類で、約120万枚規模の学習データを用い、5つの畳み込み層と3つの全結合層からなる深いCNNをGPUで学習させ、当時の競技で大きな性能差を示しました。ここで重要だったのは、単にCNNという発想が新しかったことではなく、大規模ラベル付きデータ、GPU計算、正則化や活性化関数の工夫がかみ合った点です。つまり深層学習の進化は、優れたモデルひとつの勝利というより、モデル・データ・ハードウェアの同時進化として見るべきです。

その後、画像ではVGG、ResNet、EfficientNetのように深さや効率の競争が進み、自然言語や音声ではRNN、LSTM、GRUといった系列モデルが主役になります。さらに、自己教師あり学習や事前学習の考え方が広がることで、「個別タスクごとに一から学習する」のではなく、「大規模データで汎用的な表現を学び、後から下流タスクへ適応する」という発想が強まっていきました。現在の基盤モデル時代は、この延長線上にあります。つまり、深層学習の発展をひとことで言えば、より大きなデータと計算資源を背景に、より汎用的な表現学習へ進んできた歴史だと言えます。

第2章：CNN・RNNからTransformerへの流れ

CNNとRNNは、それぞれ得意分野がはっきりしたアーキテクチャでした。CNNは局所的なパターンを捉えるのが得意で、画像認識や音声処理、さらには一部のテキスト処理でも高い性能を示しました。一方、RNNやLSTMは、単語列や時系列のように順序が重要なデータに向いており、翻訳、文章生成、音声認識などで長く中心的な役割を担ってきました。ただし、RNNには大きな弱点もありました。系列を1トークンずつ順番に処理するため並列化しにくく、遠く離れた情報どうしの依存関係を扱うのも難しかったのです。

GoogleのTransformer解説でも、RNNは語を順番に読まなければならず、遠距離依存を扱うのに複数ステップを要し、その逐次性がGPUやTPUのような並列計算資源を十分に生かしにくいと説明されています。CNNはRNNより並列化しやすいものの、離れた位置の情報を結びつけるには層を重ねたり広い受容野を工夫したりする必要がありました。そこで2017年のTransformerは、再帰も畳み込みも中心には置かず、自己注意機構を土台にして、系列中の各トークンが他の全トークンとの関係を直接参照できる設計を打ち出しました。これが「Attention Is All You Need」という論文の意味するところです。

この変化は、単に翻訳精度が上がったという話にとどまりません。自己注意によって、文中のどこに重要な情報があっても比較的直接取りに行けるようになり、しかも学習時には高い並列性を確保しやすくなりました。その結果、自然言語処理ではBERTやGPTのような大規模事前学習モデルが成立しやすくなり、画像ではVision Transformer、音声では音声Transformer、さらに画像・音声・動画・テキストをまたぐマルチモーダル基盤モデルへと発展していきます。つまり、CNNやRNNからTransformerへの流れは、タスク別の専用設計から、より汎用的でスケールしやすい設計への移行だったと整理できます。

系統	得意なこと	弱み	次への橋渡し
CNN	局所パターン抽出、画像認識	長距離依存を直接扱いにくい	Vision Transformerやハイブリッド設計へ
RNN/LSTM	系列処理、翻訳、音声	逐次処理で並列化しにくい	自己注意ベースのTransformerへ
Transformer	長距離依存、並列学習、汎用性	計算量や長文処理の負担	MoE、長文化、代替系列モデルへ

第3章：Transformerが強い理由を分解する

Transformerが強い理由は、一言でいえば「情報のつなぎ方が柔軟で、計算機との相性もよい」からです。自己注意では、あるトークンの表現を作るときに、系列内の他のトークン全体との関連度を学習できます。これにより、RNNのように前から順番に情報を持ち回さなくても、離れた位置の語や文脈を比較的直接参照できます。たとえば翻訳で、文頭の主語と文末近くの述語の対応を取る、長い文章の途中に出てきた固有名詞を末尾の要約に反映する、といった処理がしやすくなりました。

さらに重要なのは、学習時の並列化しやすさです。RNNは構造上どうしても順番依存が強く、トークンごとの処理が逐次になりがちでした。対してTransformerは、自己注意計算そのものは重いものの、系列全体をまとめて処理しやすく、GPUやTPUの並列計算資源を使いやすい設計です。Googleの解説でも、TransformerはRNNやCNNより学習計算との相性がよく、翻訳で高品質かつ高速な学習を実現した点が強調されています。つまり、理論上の表現力だけでなく、実際に大規模学習を回しやすいことが普及を後押ししました。

また、Transformerはモジュール化しやすい点も大きな強みです。位置エンコーディング、マルチヘッド注意、残差接続、LayerNorm、FFNといった部品の組み合わせとして理解できるため、研究者や開発者が改良を加えやすい構造になっています。その結果、エンコーダ中心のBERT系、デコーダ中心のGPT系、エンコーダ・デコーダ型のT5系など、多様な派生が生まれました。画像ではパッチ分割してViTへ、音声ではスペクトログラムやトークン化を通してTransformerへ、最近では画像・音声・動画・テキストを統合する基盤モデルへと横展開しています。要するに、Transformerは単一のモデルというより、汎用的な設計原理として広がったことが本当の強さです。

Transformerが広がった主な理由

遠距離依存を比較的直接扱える
学習時に並列化しやすく、大規模計算と相性がよい
部品化しやすく、派生モデルを作りやすい
言語以外のモダリティにも転用しやすい

第4章：スケーリングで何が変わったのか

Transformerの真価がさらに明確になったのは、スケーリング則が注目されてからです。OpenAIが示したスケーリング則では、言語モデルの損失がモデルサイズ、データ量、計算量に対して比較的なめらかなべき乗則で改善し、大きいモデルほどサンプル効率が高い傾向があることが示されました。これは、「細かな構造改良を積み上げる」だけでなく、「十分なデータと計算資源を投じて大きくする」こと自体が強力な戦略であることを裏づけました。結果として、基盤モデル開発はアーキテクチャ単体の妙技よりも、学習データ、計算資源、最適化、事後調整、推論運用まで含めた総力戦に変わっていきます。

この流れによって何が変わったのかと言えば、まずモデルの役割が「特定タスク専用の予測器」から「多用途の事前学習済み基盤」へ変わりました。かつては翻訳モデル、要約モデル、分類モデルを別々に作るのが普通でしたが、スケールしたTransformer系モデルでは、ひとつの大規模事前学習モデルに対し、プロンプト、微調整、ツール接続などで多様な仕事をさせる発想が一般化しました。次に、性能競争の中心が単純な精度から、推論コスト、レイテンシ、コンテキスト長、ツール利用、マルチモーダル対応へ広がりました。つまり「大きいほど強い」だけでは足りず、「どう効率よく大きくするか」「どう使える形へ落とすか」が重要になったのです。

さらに近年は、スケーリングの中身も変わっています。Denseモデルをそのまま巨大化するだけでなく、必要な部分だけを有効化するMixture-of-Expertsのような疎な設計が広がり、長い文脈を扱うためのKVキャッシュ最適化や局所・大域注意の工夫も進みました。実際、2025年のAppleの技術報告では、オンデバイス側でKV-cache sharingや量子化学習を使い、サーバー側ではParallel-Track Mixture-of-Experts Transformerを採用して、高品質と効率の両立を狙っています。Google DeepMindのGemma 4系でも、長いコンテキスト、マルチモーダル、DenseとMoEの両系統、オンデバイス展開が並列して進んでいます。つまり、スケーリングとは単なる巨大化ではなく、計算の使い方そのものを最適化する競争へ進化したのです。

第5章：次に注目すべき発展方向

では、Transformerの次に何が来るのか。ここは単純な「次世代アーキテクチャが全部置き換える」という話ではなく、いくつかの発展方向が並行して進むと考えるほうが自然です。第一に、マルチモーダル化は今後も中心テーマです。テキストだけでなく、画像、音声、動画、操作履歴まで一体で扱えるモデルが増えており、実際に最近の公開モデルでも画像入力や音声対応、長いコンテキストが標準機能に近づいています。第二に、疎な計算です。MoEは全パラメータを毎回使わずに容量を拡張できるため、性能とコストの両立手段として重要性が増しています。

第三に、長文処理と外部記憶の発展です。Transformerは自己注意ゆえに長い文脈で計算負荷が重くなりやすいため、長コンテキスト化、検索拡張、メモリ機構、キャッシュ共有などの工夫が引き続き重要です。第四に、代替系列モデルの存在です。たとえばMambaのような選択的状態空間モデルは、注意を使わずに線形時間で長い系列を扱える可能性を示し、特定条件では高スループットや長系列性能で注目されています。ただし、すぐにTransformerを全面置換するというより、用途に応じた補完関係として見るのが現実的です。画像、音声、ゲノムのような長系列処理では、こうした系統の研究が今後も伸びるでしょう。

そして第五に、モデル単体の賢さよりも、ツール利用やワークフロー制御を含むエージェント化が進む点です。OpenAIのエージェント構築ガイドでも、単なる一問一答ではなく、モデルが複数ステップの作業を独立して実行するシステム設計が強調されています。つまり競争軸は、「次のアーキテクチャは何か」だけではなく、「モデルが外部世界とどう接続されるか」へ移っています。今後しばらくは、Transformer系を土台にしつつ、MoE、マルチモーダル、長文化、オンデバイス最適化、代替系列モデル、エージェント設計が並走するはずです。深層学習の次の進化は、単独の大発明というより、これらの要素がどれだけうまく統合されるかで決まっていくでしょう。

注目方向	狙い	代表的な論点
マルチモーダル化	テキスト以外も統合理解する	画像・音声・動画・UI操作の統合
MoEと疎計算	容量を増やしつつ計算を抑える	ルーティング、効率、安定学習
長文処理・外部記憶	長い文脈や最新知識を扱う	長コンテキスト、検索拡張、メモリ
代替系列モデル	長系列をより効率よく扱う	SSM、線形時間、長系列性能
エージェント化	推論だけでなく行動まで担う	ツール利用、計画、実行、監督

深層学習とTransformerの進化を整理すると、重要なのは「どのモデルが勝ったか」だけではなく、なぜその時代にその設計が伸びたのかを見ることです。CNNは大規模画像認識で飛躍を生み、RNNは系列処理を押し上げ、Transformerは自己注意と並列化しやすさによって基盤モデル時代を切り開きました。そして今は、スケーリングの延長線上で、マルチモーダル化、疎計算、長文処理、代替系列モデル、エージェント化が同時に進んでいます。つまり、これからの焦点は「Transformerの後継者を一つ当てる」ことではなく、どの制約に対してどの設計が効くのかを見極めることです。その視点を持つと、日々のモデル発表や研究トレンドもかなり追いやすくなります。