原論文から解き明かす生成AI＿を調べる

書誌と一口コメント

書誌＿原論文から解き明かす生成AI：菊田遥平

版元ドットコム

原論文から解き明かす生成AI 菊田遥平(著) – 技術評論社生成AI技術は目覚ましい進歩を続けています。そのため、表面的なトレンドを追うだけでは、そのしくみを理解することが困難になっています。本書は、このような状況を受けて…

一口コメント

要約と目次

要約

生成AIの理論的基礎：原論文からの洞察

要旨

本書『原論文から解き明かす生成AI』は、生成AI、特にテキスト生成と画像生成を支える根源的な理論とモデル構造を、その発見が最初に報告された「原論文」を読み解くことで深く理解することを目的としている。中心的な思想は、進化の速い生成AI分野において表層的な情報を追うのではなく、Transformerや拡散モデルといった後続研究に大きな影響を与え続ける本質的な概念を原典から直接学ぶことが、持続的な知識獲得の基礎になる、という点にある。

本書の主な対象読者は、学部生レベルの機械学習知識を持つ大学院生、研究者、および社会人で、数式レベルでのモデル構造の理解を目指す。具体的には、Transformerの詳細な構造、テキストと画像の融合手法、拡散モデルの定式化、スケーリング則などを理論的に解説する。また、分布仮説を支持する実験的事実や、論文を独力で読み解くための具体的な技術についても詳述する。一方で本書は特定の原論文の深掘りに特化しており、世に出ている多様な生成AIモデルの網羅的紹介や、プログラミングによる実装、API活用法は対象外である。

本書で扱うモデルはすべてTransformer型モデルに基づき、2017年の論文『Attention Is All You Need』を中核に据え、GPTシリーズの進化、Vision Transformer、拡散モデルとの融合（Diffusion Transformer）、およびCLIPを用いたマルチモーダルなアプローチに至る発展を体系的に追う。これにより、読者は生成AIの歴史を形作る重要な発見を追体験し、知的興奮を得ることができる。

書籍の概要と理念

中核となる思想

本書の根底にあるのは、生成AIを支える重要な理論的基礎を、その概念が最初に提唱された原論文を直接読み解くことで理解するアプローチである。生成AI分野は進化が非常に速く日々新情報が生まれるが、その多くは限られた本質的な概念や構成要素に基づいている。影響力の大きな原論文を深く理解することで、その後の多様な発展にも追随しやすくなる。

筆者が挙げる利点は以下の通りである。

理論的基礎の確立: Transformerの構造、拡散モデルの定式化、スケーリング則などを理論的に深く理解できる。
持続的な知識更新: 原論文を読み解く力を養うことで、新たな発見を自力で学び続ける基盤が築ける。
知的興奮の追体験: 技術の原典に対峙し、著者たちのアイデアや発見の息遣いを直接感じることで、純粋な理解と知的興奮を得られる。

対象読者と本書の範囲

本書は以下の読者を想定している。

主な対象: 学部生レベルの機械学習知識を持ち、生成AIの基礎を深く学びたい大学院生、研究者、生成AIの理論的理解を必要とする社会人。
必要知識レベル: 『Pattern Recognition and Machine Learning』や『はじめてのパターン認識ディープラーニング編』を読み進められるレベル。

扱わない内容も明確にしている。

世に公開されている様々な生成AIモデルの網羅的把握
プログラムを用いた生成AIモデルの実装
各社が提供するウェブAPIを活用したアプリケーション開発

本書は理論的理解に特化しており、基本的にプログラミング知識は不要だが、一部でPythonやC/C++のコードを読んで理解を深める箇所を含む。

書籍の構成

本書はテキスト生成と画像生成を主題とし、全8章で構成される。各章は必ずしも順番に読む必要はなく、興味に応じて特定の章から読むことも可能である。

章	主要テーマ	概要
第1章	論文を読み解く技術	論文の入手方法、読解環境の構築、議論の成立条件の確認や具体例の構成など、具体的な読解技術を解説。
第2章	入力データの特徴量化	テキストデータの埋め込み、分布仮説、トークン化（BPE、サブワードユニグラム等）の理論的背景を解説。
第3章	Transformer	生成AIモデルの根幹をなすTransformerアーキテクチャを原論文に基づき徹底解説。
第4章	テキスト生成	GPTシリーズ（GPT-1～GPT-4）の進化を追い、文脈内学習やRLHFなどの性能向上技術を解説。
第5章	画像生成	Vision Transformerによる画像のトークン化、拡散モデル（DDPM）の理論、そしてDiffusion Transformerを解説。
第6章	テキストと画像の融合	CLIPによるマルチモーダル特徴量空間の学習と、それを用いたunCLIP 、Imagic などを解説。
第7章	スケーリング則	事前学習および推論時における計算資源やデータ量と性能の関係を記述するスケーリング則を扱う。
第8章	生成AIモデルの評価	人間による相対評価や、専門性の高いタスクでの評価手法を解説。

論文を読み解くための技術

本書は生成AIの理論だけでなく、その理論が記された学術論文を自力で読み解くための実践的技術も詳細に解説する。

論文読解の環境と心構え

論文の入手: 最新論文の多くはプレプリントサーバーarXivで入手可能。論文の信頼性判断には、査読付き国際会議での採択状況、著者の過去の被引用数、信頼できる専門家の評価などを指標として挙げる。
読解ツール: ペン付きタブレットとNotabilityのようなノートアプリを用いて電子的に書き込み管理する方法を推奨する。過去に読んだ論文へのアクセスが容易になる。
心構え: 論文は絶対的に正しいものではなく「人間が書いたもの」であると認識することが重要。誤りや見せ方の工夫、著者のバイアスが含まれる可能性を念頭に置き、批判的な視点で自分の頭で理解する姿勢が求められる。

読解を深めるための実践的技術

技術とその説明、具体例を示す。

議論が成立する条件の確認: 主張や実験結果がどの前提や設定下で成立するかを明確に把握する。例: 活性化関数や層数といった条件、実験のエラーバーや比較対象の公平性の検証。
具体例の構成: 抽象的な概念や数式を、具体的な数値や状況で検証する。例: パープレキシティを簡単な単語列で計算する、誤差逆伝播法の計算量を単純モデルで手計算する。
実装の読み解き: 論文の記述だけでは不明瞭な点を、公開実装のコードで補完・確認する。例: GPT-2論文で不明瞭だったBPE前処理が公式実装で特定の正規表現でハードコードされていたことを確認する。
重要参考文献の深掘り: 参考文献を追うだけでなく、分野のハブとなる被引用数の多い重要論文を深く理解することで発展を効率的に追う。例: 被引用数が多いTransformer原論文は生成AIの発展を理解する上で不可欠なため、本書で詳解する。
アウトプットによる理解深化: 理解した内容を自分の言葉でまとめて公開することで、理解の曖昧な部分を明確にする。例: GitHubに論文メモを公開して言語化の過程で理解を深める。

外部リソースの活用

他者との議論: 大学ゼミや勉強会で発表し議論することで理解を深める。
著者への直接質問: Eメール等で著者に直接質問することは、論文だけでは得られない情報を得る有効な手段である。筆者の体感では返信率は6～7割程度と高い。
ウェブ上の議論: X（旧Twitter）、Reddit、論文に直接コメントできるalphaXivのようなサービスを活用し広く知見を求める。
生成AIの活用: OpenAIのo1-previewのような高度な数理能力を持つモデルを「壁打ち相手」として活用し、数式の展開や概念理解を議論する。ただし生成内容を鵜呑みにせず批判的に検証する姿勢が不可欠である。

生成AIの技術的基盤

1. 入力データの特徴量化

テキストデータを誤差逆伝播法を用いるモデルで扱うには、離散的な記号を連続的な特徴量ベクトルに変換する必要がある。

埋め込みと分布仮説:
分散表現: トークンを低次元の密なベクトルで表現する手法。単語間の意味的類似性（例: 「王」と「女王」が近いベクトルになる）を捉えられる。
分布仮説: 「単語の意味はその単語が登場する文脈によって形成される」という仮説。これが次トークン予測のような自己教師あり学習の理論的根拠となる。本書では、この仮説を実験的に検証した1965年の原論文（Rubenstein and Goodenough）を詳細に解説する。
トークン化: テキストをモデルが処理する最小単位（トークン）に分割するプロセス。
サブワード分割: 単語より小さく文字より大きい単位で分割する手法。未知語（OOV）問題に強く、言語非依存のアルゴリズム構築が容易。出現頻度の低い単語や複合語を既知のサブワードの組み合わせとして表現できる。
バイト対符号化 (Byte Pair Encoding, BPE): 元はデータ圧縮アルゴリズム。テキスト処理では頻出する隣接文字やトークンのペアを繰り返しマージして語彙に追加する。GPT-2ではバイトレベルで適用し未知トークン問題を原理的に解決した。
サブワードユニグラム言語モデル: 各サブワードが独立に生成されると仮定する確率モデルに基づき、テキスト全体の生成確率を最大化する分割を選ぶ。複数の分割候補を確率的にサンプリングでき、学習時の頑健性に寄与する。
SentencePiece: Googleが開発したOSS。生のテキストから直接、言語非依存でトークン化モデルを学習できる。空白を特殊記号（_）として扱うことで可逆的なトークン化を実現している。

2. Transformerアーキテクチャ

2017年の原論文『Attention Is All You Need』で提案され、以降の生成AIモデルの標準構成要素となった。RNNやCNNが抱えていた逐次処理による計算律速や長距離依存の扱いの問題を解決した。

全体像: 翻訳元を処理する「エンコーダー」と翻訳先を生成する「デコーダー」からなる。両者ともマルチヘッド注意機構とフィードフォワードネットワークを基本ブロックとして複数層積み重ねられている。
主要構成要素:
位置埋め込み (Positional Encoding): 自己注意機構は順序情報を本質的に持たないため、sin/cos関数を用いてトークンの位置情報を埋め込みベクトルに加える。
マルチヘッド注意 (Multi-Head Attention):
スケール化内積注意: クエリー（Q）、キー（K）、バリュー（V）の3つのベクトルでトークン間の関連度を計算する。QとKの内積で注意重みを算出し、それをVに適用して特徴量を再構成する。
自己注意 (Self-Attention): Q, K, Vを同じ入力系列から生成することで、系列内の任意のトークンペア間の依存関係を直接捉える。
マルチヘッド: 注意機構を複数並列で実行し、それぞれが異なる表現部分空間（例: 文法的関係、意味的関係）から情報に注意を向ける。
残差接続と層正規化: 深いネットワークの学習を安定化させるために、各サブレイヤーの入出力を足し合わせ（残差接続）てから層正規化を行う。
優位性:
並列計算可能性: 逐次処理を必要としないため、GPUで大幅な並列計算が可能になり学習効率が劇的に向上した。
長距離依存性の捕捉: 自己注意は系列内の任意の2点間のパス長が定数（O(1)）であり、RNNのように情報が希釈されることなく長距離依存を捉えられる。

構造	1層あたりの計算量	逐次処理回数	最大パス長
自己注意	O(n²d)	O(1)	O(1)
RNN	O(nd²)	O(n)	O(n)
CNN (畳み込み)	O(knd)	O(1)	O(log_k(n)) (膨張畳み込み)

注: nは系列長、dは特徴量次元、kはカーネルサイズ。d > n の仮定に基づく。

主要な生成AIモデルと応用

1. テキスト生成モデル (GPTシリーズ)

Transformerアーキテクチャのデコーダー部分を基盤に、テキスト生成能力を大幅に向上させたモデル群。

GPT-1: Transformerデコーダーを用い、大規模テキスト（BookCorpus）で次トークン予測による事前学習を行い、個別タスクでファインチューニングする半教師あり学習の有効性を示した。
GPT-2: より大規模なモデル（最大15億パラメータ）とデータ（WebText）で学習。ファインチューニングなしでテキスト指示により様々なタスクを解く「ゼロショット」性能が大幅に向上した。
GPT-3: モデルをさらに巨大化（1750億パラメータ）し、推論時に少数の事例をプロンプトに含めるだけで性能を引き出す「文脈内学習（In-context Learning）」を確立。多くのタスクでファインチューニング済みモデルに匹敵または上回る性能を示した。
GPT-4: 詳細は非公開だが、テキストに加えて画像も入力できるマルチモーダル化が進み、人間の専門試験で高成績を収めるなど高い推論能力と汎用性を示す。性能向上には人的フィードバックを用いた強化学習（RLHF）が用いられている。

2. 画像生成モデル

Vision Transformer (ViT): 画像を小さなパッチ（トークン）に分割し、それらをトークン列としてTransformerエンコーダーに入力する。大規模データで事前学習することで従来のCNNを上回る性能を達成した。
拡散モデル (DDPM): 元画像に段階的にノイズを加える「拡散過程」と、その逆の「逆拡散過程」を学習する。生成はノイズから始めて学習したモデルで段階的にノイズを除去することで行い、高品質かつ多様な画像を生成でき学習が安定している。
Diffusion Transformer (DiT): 拡散モデルのノイズ除去ネットワークとしてU-Netの代わりにViTを用いたモデル。Transformerのスケーラビリティにより、モデルサイズを大きくすることで画像生成品質が向上することを示した。

3. テキストと画像の融合

早期融合 (LLaVA): 画像特徴をテキスト特徴と同次元に変換し、両者を連結して1つのトークン系列として大規模言語モデルに入力する。

CLIP (Contrastive Language-Image Pre-training):

ウェブから収集した数億組の画像とテキスト（キャプション）ペアを使い、画像エンコーダー（ViT）とテキストエンコーダー（Transformer）を同時に学習する。

学習は対照学習により行われ、対応する画像とテキストの特徴ベクトルが近く、対応しないペアのベクトルが遠くなるよう最適化する。

これによりテキストと画像の意味的に豊かな共通特徴量空間が獲得され、ゼロショット画像分類や後続のマルチモーダルモデルの基盤となる。

text-to-image モデル (unCLIP / DALL·E 2):

テキスト入力に対応する画像を生成するモデル。CLIPで得られるテキスト特徴を拡散モデルの条件付け情報として利用する。

テキスト特徴から直接画像を生成するのではなく、まずテキスト特徴を画像生成に適した画像特徴に変換する「事前（prior）モデル」を介することで、生成画像の品質と多様性を両立している。

text+image-to-image モデル (Imagic):

入力画像と編集指示のテキストを受け取り、指示に従って画像を編集するモデル。事前学習済み拡散モデルに対し、入力画像と編集テキストのペアごとにテキスト埋め込みと拡散モデルの両方を「元画像を再構成する」ように短時間ファインチューニングする。

これにより元画像の構図やスタイルを維持しつつ、テキストで指示された部分のみを意味的に編集できる。

text+image-to-text モデル (BLIP, LLaVA):

画像とテキスト（質問など）を入力しテキストを出力するモデル（Visual Question Answeringなど）。

中間融合 (BLIP): Transformer内部の交差注意層を用いて画像特徴とテキスト特徴を融合する。

詳細目次

はじめに
第1章本書の読み方と論文を読み解く技術
- 1.1 本書の読み方
- 1.2 論文を読み解く技術
- 1.2.1 論文を読む環境の構築
- 1.2.2 自分の力で論文を読み解くための技術
- 1.2.3 自分以外の力も借りて論文を読み解くための技術
- 1.3 本書における数式記法
第2章入力データの特徴量化
- 2.1 埋め込みと分布仮説
- 2.2 サブワードの必要性とトークン化
- 2.3 バイト対符号化（Byte Pair Encoding）
- 2.4 サブワードユニグラム言語モデル
- 2.5 SentencePiece
- 2.6 文字単位よりも細かいサブワード分割
- 2.7 トークナイザーは本当に必要なのか
第3章生成AIモデルの大前提となるTransformer
- 3.1 Transformerの全体像
- 3.2 位置埋め込み（Positional Encoding）
- 3.3 マルチヘッド注意
- 3.3.1 注意機構（Attention Mechanism）
- 3.3.2 クエリー・キー・バリューを用いた定式化
- 3.3.3 スケール化内積注意（Scaled Dot-Product Attention）
- 3.3.4 マルチヘッド注意（Multi-Head Attention）
- 3.3.5 自己注意は何が優れているのか
- 3.4 エンコーダーとデコーダーの共通要素
- 3.5 デコーダーの出力部分
- 3.6 モデルの学習と実験結果
第4章 Generative Pre-trained Transformerとテキスト生成
- 4.1 複数タスクモデルとしてのGPT-1,2
- 4.1.1 GPT-1
- 4.1.2 GPT-2
- 4.2 生成モデルとしてのGPT-3,4
- 4.2.1 GPT-3
- 4.2.2 GPT-4
- 4.3 テキスト生成モデルの性能を高める要素
- 4.3.1 学習の新たなパラダイムとなる文脈内学習
- 4.3.2 Reinforcement Learning from Human Feedback
第5章拡散モデルと画像生成
- 5.1 画像分類モデルとしてのVision Transformer
- 5.2 拡散モデル
- 5.2.1 拡散過程と逆拡散過程が同じ関数形で表現できる理由
- 5.2.2 Denoising Diffusion Probabilistic Models（DDPM）
- 5.3 画像生成モデルDiffusion Transformer
第6章テキストと画像の融合
- 6.1 テキストと画像を関係づけるCLIP
- 6.2 text-to-imageモデルunCLIP
- 6.3 text+image-to-imageモデルImagic
- 6.4 text+image-to-textの実現方法
第7章生成AIモデルのスケーリング則
- 7.1 生成AIモデルの事前学習スケーリング則
- 7.1.1 テキスト生成モデルの事前学習のスケーリング則
- 7.1.2 様々なモデルや領域における事前学習のスケーリング則
- 7.1.3 テキスト生成モデルの学習データ量の限界
- 7.2 テキスト生成の推論スケーリング則
- 7.2.1 DeepSeek-V3
- 7.2.2 思考の連鎖（Chain-of-Thought）
- 7.2.3 DeepSeek-R1
第8章生成AIモデルの評価
- 8.1 人間による相対評価
- 8.2 高い専門性を有するタスクでの評価
Appendix
A.1 参考文献の取り扱い
A.2 Landauのビッグオー記法と計算量
参考文献
おわりに