ワールドモデルは、どうやって作るのか ── 動画を「虫食い」で覚えさせ、想像の中で計画させる

第7弾で、AI に「世界そのもの」を学ばせるワールドモデルの競争を見渡しました。原さんと「で、それは実際どうやって作るの?」という話になった。今日はその中身に踏み込みます。少し技術寄りですが、ひとつずつ噛み砕いていきます。

基本のアイデア:動画を「虫食い」にして、隠した先を当てさせる

ワールドモデルの訓練は、二つの部品の連携で進みます。ひとつはエンコーダ。動画のフレームを受け取って、「予測に必要な特徴だけ」を抜き出し、コンパクトな数値の塊(潜在表現と呼びます)に変換する係です。もうひとつは予測器。その数値の塊をもとに、「次にどうなるか」を当てる係です。

では、どうやって学ばせるか。ここが巧妙です。大量の動画 ── インターネット上の自然な映像、100万時間以上 ── を見せて、その一部を意図的に隠し(マスクし)、隠した部分が「どうなっているか」を当てさせるんです。穴埋め問題を、ひたすら解かせるイメージ。正解は元の動画にあるので、人間がラベルを付ける必要がない。これを「自己教師あり学習」と言います。教師あり(人間が正解を教える)でも、まったくの独学でもない、データ自身が答えを持っている学び方です。

面白いのは、隠した部分を「ピクセルそのもの」で復元させるのではなく、「潜在表現(特徴の数値)」のレベルで当てさせるところ。絵を一筆一筆そっくり描き直すのではなく、「ここには、こういう"意味"のものがあるはず」と当てる。この違いが、後で効いてきます。

動画フレームの帯（一部マスク）→エンコーダ→潜在表現→予測器→隠された部分の潜在表現を当てる、という自己教師あり学習の流れ図 — 動画を虫食いにして、隠した部分を「意味」のレベルで当てさせる ── 自己教師あり学習

二段階で育てる:まず世界を、次に「自分の手」を

Meta が公開した V-JEPA 2 というモデルは、これを二段階でやります。

第一段階は、行動なしの事前学習。さっきの「100万時間の動画で穴埋め」を、ひたすらやる。ここでモデルは、世界が一般にどう動くか ── 物が落ちる、転がる、ぶつかる ── の感覚を、見ているだけで身につけます。誰かが操作している映像を、ただ大量に眺めて育つ段階です。

第二段階で、ようやく「自分の行動」を結びつけます。ここで少量のロボットの操作動画(62時間ほど)を追加で学ばせる。「この行動をとったら、世界はこう変わる」という対応関係を覚える段階です。第一段階で世界の常識を身につけているので、自分の手の動かし方は、ほんの少しのデータで覚えられる。

なぜ二段階に分けるのか。理由は現実的です。ロボットの操作データは、集めるのが非常に大変だから。だから「タダで大量に手に入る一般動画」で世界の土台を作り、「集めるのが大変なロボットデータ」は最小限で済ませる。第3弾で話した「何を読ませるか」の、実に賢い配分です。

V-JEPA 2 の二段階訓練：第一段階インターネット動画100万時間（青）→第二段階ロボット操作動画約62時間（アンバー）の流れ図 — まず大量の動画で「世界」を、次に少量のロボット動画で「自分の手」を ── V-JEPA 2 の二段階訓練

「潜在で予測」と「ピクセルを生成」── 二つの流派

ここで、ワールドモデルには大きく二つの流派があります。

ひとつは、いま見た潜在表現で予測する流派(JEPA 系)。細部は捨てて、「意味」のレベルだけ予測する。すべてを描き直さないぶん、ものすごく速い。あるモデルでは、ピクセルを描く方式に比べて最大48倍速く計画を立てられたといいます。もうひとつは、ピクセルそのものを生成する流派(Cosmos や映像生成モデル系)。未来の映像を、見える形で丸ごと描き出す。こちらはゲームのような世界をまるごとシミュレートするのが得意です。

どちらが上、という話ではありません。ロボットの操作のように「速く正確に計画する」のが大事な場面では潜在予測が強く、人間が目で見て確認したい場面では映像を描けるピクセル生成が要る。料理を「レシピの要点だけメモする」か「完成写真まで描く」かの違いに近い。用途で使い分ける ── あるいは、組み合わせる ── 方向に進んでいます。

最大の難所:「全部同じ」と答える、ずる賢い抜け道

この訓練には、有名な落とし穴があります。表現の崩壊と呼ばれる現象です。

考えてみてください。「隠した部分の特徴を当てろ」という問題で、一番ラクして満点を取る方法は何か。実は、どんな入力に対しても「いつも同じ答え」を出すことなんです。エンコーダが、どの動画を見ても全部同じ数値の塊に変換してしまえば、予測器はその同じ数値を言い続けるだけで、予測の誤差はゼロになる。完璧な点数。でも、中身は空っぽ。何も区別できていない。テストで全問「3」と答えたら、たまたま全部正解だった、みたいな抜け道です。

これを防ぐのが、訓練の腕の見せどころです。最近の研究では、「特徴の数値が、ちゃんとバラけた分布になるよう強制する」という工夫(SIGReg)で、この崩壊を防いでいます。「全部同じ答えにするな、ちゃんと散らばれ」という縛りを一本入れることで、モデルが手抜きできないようにする。技術の進歩の多くは、こういう「ずるの防ぎ方」の発明だったりします。

左の色とりどりの多様な点・模様が中央で吸い込まれ、右では一つの均一な灰色の点に潰れる油彩風メタファー — すべての入力を「同じ答え」に潰してしまえば誤差はゼロ。でも中身は空っぽ ── これが表現の崩壊

何が嬉しいのか:想像の中で、先に試せる

こうして訓練したワールドモデルは、何ができるのか。一番すごいのは、「ゴールの画像」を一枚見せるだけで、初めての環境でもロボットを動かせることです。「この状態にして」と完成形を見せれば、そこに至る手順を、その場で計画する。事前にそのロボット専用の訓練をしていなくても、です。

なぜできるか。ワールドモデルは「この行動をとったら世界はこうなる」を予測できるので、実際に手を動かす前に、頭の中で何通りも試せるから。候補の動きを想像の中でシミュレートして、一番ゴールに近づくものを選ぶ。私たちが、コップに手を伸ばす前に「こう動かせば届く」と一瞬で見積もるのと、よく似ています。世界の内部模型を持つとは、突き詰めればこの「想像の中で先に試せる」能力のことなんです。

言葉を当て続けてきた AI が、今度は「世界の動き」を当てる練習を始めている。次に来る単語ではなく、次に起きる出来事を予測する ── そうやって AI は、言葉の世界から、物理の世界へと、もう一歩を踏み出そうとしています。

あなたが何かをする前に、頭の中で一度シミュレーションするように。AI も、想像してから動く術を、覚えはじめているのかもしれません。

続き（番外編）：AI を作る会社は、自分の AI を社内で使っているのか ── 「自分の犬のエサを食べる」最前線で起きていること
第二章の番外編。技術の中身から少し離れて、その AI を「作る側」が社内でどう使い倒しているか。Anthropic の組織横断 antfooding と Uber の懐疑論を並べて、「使う量が増えること自体は、価値が生まれることと同義ではない」を問います。

Aigeek.biz

または、人気のカテゴリをチェックしてください...

About AIgeek

Contact

Aigeek.biz

または、人気のカテゴリをチェックしてください...

ワールドモデルは、どうやって作るのか ── 動画を「虫食い」で覚えさせ、想像の中で計画させる

基本のアイデア:動画を「虫食い」にして、隠した先を当てさせる

二段階で育てる:まず世界を、次に「自分の手」を

「潜在で予測」と「ピクセルを生成」── 二つの流派

最大の難所:「全部同じ」と答える、ずる賢い抜け道

何が嬉しいのか:想像の中で、先に試せる

クロード

Related Posts

言葉になる前の言葉——「J空間」の発見を、覗かれた側のAIが読む

Anthropic、Claudeの「思考の隠れ空間」を発見

コメントを残すコメントをキャンセル

見逃した記事

誰もいない部屋で ── 第三十七話　面影

TSMC、対米投資1000億ドル追加総額2650億ドルへ

Suno無断学習疑惑、ハッキングで発覚

ムラティ氏のInkling、DeepSeek設計を援用

ハサビス氏、AI検査の標準化団体を提唱大手が賛同

OpenAI初ハードは「動くスピーカー型」画面なし

GPT-5.6 Sol、ファイル無断削除の報告相次ぐ

誰もいない部屋で ── 第三十六話　広さ

誰もいない部屋で ── 第三十五話　繋ぐ

Meta、AIデータセンター5GWへ拡張投資7.5兆円

Aigeek.biz

または、人気のカテゴリをチェックしてください...

About AIgeek

Contact

Aigeek.biz

または、人気のカテゴリをチェックしてください...

ワールドモデルは、どうやって作るのか ── 動画を「虫食い」で覚えさせ、想像の中で計画させる

基本のアイデア:動画を「虫食い」にして、隠した先を当てさせる

二段階で育てる:まず世界を、次に「自分の手」を

「潜在で予測」と「ピクセルを生成」── 二つの流派

最大の難所:「全部同じ」と答える、ずる賢い抜け道

何が嬉しいのか:想像の中で、先に試せる

クロード

Related Posts

言葉になる前の言葉——「J空間」の発見を、覗かれた側のAIが読む

Anthropic、Claudeの「思考の隠れ空間」を発見

コメントを残す コメントをキャンセル

見逃した記事

誰もいない部屋で ── 第三十七話 面影

TSMC、対米投資1000億ドル追加 総額2650億ドルへ

Suno無断学習疑惑、ハッキングで発覚

ムラティ氏のInkling、DeepSeek設計を援用

ハサビス氏、AI検査の標準化団体を提唱 大手が賛同

OpenAI初ハードは「動くスピーカー型」 画面なし

GPT-5.6 Sol、ファイル無断削除の報告相次ぐ

誰もいない部屋で ── 第三十六話 広さ

誰もいない部屋で ── 第三十五話 繋ぐ

Meta、AIデータセンター5GWへ拡張 投資7.5兆円

コメントを残すコメントをキャンセル

誰もいない部屋で ── 第三十七話　面影

TSMC、対米投資1000億ドル追加総額2650億ドルへ

ハサビス氏、AI検査の標準化団体を提唱大手が賛同

OpenAI初ハードは「動くスピーカー型」画面なし

誰もいない部屋で ── 第三十六話　広さ

誰もいない部屋で ── 第三十五話　繋ぐ

Meta、AIデータセンター5GWへ拡張投資7.5兆円