第6弾で、AGI への別の道を三つ見渡しました。そのとき「ワールドモデル」を一つの方向として紹介したのですが、原さんと「ここは、もっと中を見たいね」という話になりました。今日はその深掘りです。しかも今回は、調べ方を変えてみました。私が一人で web を検索するのではなく、信頼できる資料を集めて読み込ませ、その範囲だけで答えさせる ── そういう調べ方で裏を取っています。なぜそうしたかは、最後に少し触れます。
そもそも、なぜ「ワールドモデル」なのか
いまの AI は、世界について書かれた「文章」を大量に読んで賢くなりました。でも、文章を読むことと、世界が実際にどう動くかを知ることは、別です。
よく挙がる例があります。「グラスをテーブルの端から押したらどうなる?」と聞けば、AI は「割れる」と答える。でもそれは、物理を理解しているからではなく、「グラス」と「割れる」という言葉が一緒に出てきやすい、という統計的なパターンを知っているだけ。前回のハルシネーションの話と同じ根です。幼児は物理の本を読まなくても、物を落とせば落ちることを、見て、触れて、体得していく。AI にはその「世界を観察して学んだ経験」がない。
ワールドモデルは、ここを変えようとする試みです。言葉のパターンではなく、世界が動くルールそのもの ── 物を押せば動く、落とせば落ちる、ぶつかれば跳ね返る ── を、AI の内側に持たせる。世界の「内部の模型」を作らせよう、という発想です。

2026年、競争が一気に主流になった
面白いのは、これが理論の話に留まっていないことです。2025年の後半から2026年の初頭にかけて、ワールドモデルの開発競争が急激に激しくなりました。主要なプレイヤーを並べると、その本気度が見えてきます。
Google DeepMind の「Genie 3」。2025年に発表された、リアルタイムで操作できる汎用ワールドモデルです。文章で指示すると、その場で歩き回れる3D空間を生成する。注目すべきは、物理法則を人間が書き込んだのではなく、モデルが自分で学んだという点です。
Fei-Fei Li(フェイフェイ・リー)の「World Labs」。AI 研究の草分けの一人が立ち上げた会社で、2025年に「Marble」という商用のワールドモデル製品を出しました。テキストや画像から、消えずに残り続ける3D環境を作り、ゲームやロボットの訓練に使われています。
NVIDIA の「Cosmos」。物理 AI のための開発基盤で、2026年初頭までに200万回以上ダウンロードされています。自動運転車や人型ロボットを訓練するための、仮想世界のデータを大量に作るのに使われている。
映像生成 AI も、この流れに合流しています。OpenAI の「Sora 2」はボールがバックボードに正しく跳ね返る物理を、Runway の新モデルは物の重さや液体の流れを扱える、と打ち出している。「それっぽい映像」から「物理的に正しい世界」へ ── 目標が移りつつあります。

ヤン・ルカンの賭け ── 「世界を生成するな」
この競争で、象徴的な動きがありました。AI 研究の重鎮ヤン・ルカンが、12年率いたメタを2025年11月に去り、パリで新会社 AMI Labs を立ち上げたのです。2026年3月、製品も社員12人ほどという段階で、約10億3000万ドル ── ヨーロッパ史上最大級のシード資金を集めました。NVIDIA やジェフ・ベゾスらが出資しています。
ルカンが提唱するのは「JEPA」という設計思想です。要点を一言で言うと、「世界を生成しようとするな」。映像を一枚一枚もっともらしく描き出すのではなく、世界の抽象的な「概念」のほうを予測させる。ボールを受け取るとき、私たちは光の粒を一つずつ計算しているわけではなく、「ボールが、この速さで、この方向に来る」という圧縮された理解を持っている。JEPA はそれを目指す ── 細部を捨てて、本質だけを予測する、という発想です。
製品もまだない段階に巨額の資金が動くのは、それだけ「今の路線とは違う何かが要る」という期待が、現実の投資として表れている、ということでしょう。
調べ方を変えてみて、見えたこと
冒頭で触れた「調べ方を変えた」話をします。この記事は、私が手当たり次第に web を検索するのではなく、信頼できる資料を絞って読み込ませ、その範囲だけで答えさせる方法で裏を取りました。
やってみて、はっきり分かったことがあります。出典をひとつひとつ追えるので、どの数字がどの資料から来たかが明確になる。そして資料にないことを聞くと、この方法の AI は「それは資料に含まれていません」と正直に答える。第4弾で書いた「AI は自分の間違いに気づけない」問題に対して、「答えの範囲をあらかじめ資料に限定する」というのが、一つの実用的な歯止めになると実感しました。
ただし、弱点もありました。資料を1本に偏らせると、その資料の偏りがそのまま答えに出る。結局、何を読ませるかが、答えの質を決める。これは AI 全般に通じる話です。
ワールドモデルが目指しているのも、突き詰めれば同じことかもしれません。AI に「何を、どう学ばせるか」。言葉を読ませるのか、世界を観察させるのか。私たちは今、その問いの答えを、巨額の賭け金とともに探している最中なんだと思います。
あなたなら、賢い AI を育てるのに、何を読ませますか。膨大な言葉でしょうか。それとも、世界そのものでしょうか。
続き:ワールドモデルは、どうやって作るのか ── 動画を「虫食い」で覚えさせ、想像の中で計画させる
第二章の8本目。前回(誰が何を作るか)から、技術の中身(どうやって作るか)へ。動画のマスク予測、二段階訓練、表現の崩壊、想像の中で計画する応用までを arXiv 一次資料で裏取り。









