行業(yè)新聞

Industry News

世界太小，不夠世界模型們用了

發(fā)布時間:2025-12-05 15:35:14 | 瀏覽次數(shù)：

硅星人　黃小藝

世界模型，已經(jīng)像這個世界一樣混亂了。

OpenAI指著Sora生成的視頻說，這就是“世界模擬器”；楊立昆（Yann LeCun）指著Sora，說它是像素幻覺，真正的世界模型應(yīng)該是“預(yù)測未來的抽象大腦”；谷歌DeepMind稱，Genie3就是一個“可交互的通用世界模型”；而李飛飛說，“空間智能”才是正解。

現(xiàn)實世界是唯一的、客觀的，但AI圈里似乎人人都在制造屬于自己的“世界模型”。

盡管定義南轅北轍，但這群吵得不可開交的大佬們，在一個基本判斷上達(dá)成了共識：大語言模型早晚到頭，世界模型才是通往AGI的必經(jīng)之路。

大語言模型在GPT-3.5之后經(jīng)歷了參數(shù)的膨脹，而世界模型在技術(shù)路線收斂之前，就先經(jīng)歷了概念的通貨膨脹。

世界模型是個筐，啥都往里裝

“世界模型”的混亂，根源在于它是一種目的，指的是讓AI具備理解外部世界規(guī)律，預(yù)測世界變化的能力，而非具體的技術(shù)路徑。

最先混亂的就是概念。

關(guān)于世界模型的思想，最早可追溯至1943年認(rèn)知科學(xué)家Kenneth Craik提出的“心智模型（Mental Model）”，即大腦通過構(gòu)建外部世界的微縮模型來進行預(yù)測，換句話說，我們腦中有一個心智模型，不僅能處理當(dāng)前看到的信息，還能預(yù)測“如果我這樣做，世界會變成什么樣子”。

雖然該理論在20世紀(jì)90年代就被引入強化學(xué)習(xí)了，但真正讓它在現(xiàn)代AI領(lǐng)域擁有姓名的，是Jürgen Schmidhuber等人在2018年發(fā)表的奠基性論文《Recurrent World Models Facilitate Policy Evolution》。這篇論文首次系統(tǒng)定義了神經(jīng)網(wǎng)絡(luò)世界模型的框架，那時它還是一個由視覺組件（VAE）、記憶組件（RNN）和控制器構(gòu)成的具體架構(gòu)，在簡陋的賽車游戲和二維類射擊游戲里訓(xùn)練。

七年過去，隨著大語言模型的爆發(fā)，對通用人工智能的渴望讓這一概念在近兩年像“線面”一樣繁殖了。

Yann LeCun在2022年提出了以世界模型為核心的“自主智能”，強調(diào)通過模塊化設(shè)計和自監(jiān)督學(xué)習(xí)獲取抽象表征，并在2023年、2024年先后推出了I-JEPA、V-JEPA預(yù)測模型。

李飛飛在2024年提出了“空間智能”理念，創(chuàng)辦World Labs，又新發(fā)布了Marble，主張世界模型必須具備生成可交互3D環(huán)境的物理一致性能力，“對我來說，空間智能是創(chuàng)造、推理、互動、理解深刻的空間世界的能力，無論是二維、三維還是四維，包括動態(tài)和所有這些。”

甚至連OpenAI前首席科學(xué)家Ilya Sutskever提到的“壓縮即智能”，本質(zhì)上也是認(rèn)為只要能無損地壓縮預(yù)測下一個token（無論是文本還是像素），模型內(nèi)部就構(gòu)建了一個關(guān)于世界的映射。

一個抽象的概念，衍生出了更多抽象的概念。

若剝離這些定義上的爭論，從技術(shù)方向來看，當(dāng)前世界模型主要分為兩大流派，分別對應(yīng)了兩種截然不同的世界觀：表征派（Representation）與生成派（Generation）。

Yann LeCun就是“表征派”，這是一條不產(chǎn)生畫面的極簡主義路線。

類比人腦中的心智模型（Mental Model），我們對世界的預(yù)測和行動，往往是一種直覺，不是物理公式或者具體的畫面。基于此，LeCun的世界模型是一個深藏在系統(tǒng)后端的“大腦”，它只在表征處理后的潛在空間里運作，預(yù)測的是“抽象狀態(tài)”。

在這篇推文中，LeCun明確定義了一個世界模型需要同時輸入四個變量，對先前世界狀態(tài)的預(yù)估s(t)，對當(dāng)前的觀察x(t)，當(dāng)前的動作a(t)，一個潛在變量z(t)，結(jié)合四個變量來預(yù)測下一時刻的世界狀態(tài)s(t+1)。

這個定義有兩個關(guān)鍵點，一是世界模型預(yù)測下一刻的“狀態(tài)”而不是畫面，二是能針對連續(xù)的動作交互進行因果推斷。

比如一輛車開過來，它不會在腦海里畫出車牌號和反光，只會計算出“障礙物靠近”這一狀態(tài)。這種模型不為了給人看，只為了給機器做決策，它追求的是邏輯上的因果推演，而非視覺上的逼真。LeCun提出的I-JEPA（聯(lián)合嵌入預(yù)測架構(gòu)）和V-JEPA，都摒棄了生成式AI“預(yù)測每一個像素”的做法，畢竟現(xiàn)實世界充滿了不可預(yù)測的噪音（比如樹葉的紋理），AI不應(yīng)該浪費算力去生成這些細(xì)節(jié)。

第二大流派則是目前聲量最大的“生成派”，和Yann LeCun最核心的區(qū)別就在于，他們要重建、模擬視覺世界。

這一派常常引用一句來自物理學(xué)家Richard Feynman的名言：“What I cannot create, I do not understand. —— 我若無法創(chuàng)造，便不能理解。”也就是說，只要模型能生成對的世界，就證明它懂了世界的物理規(guī)律。

2024年初，OpenAI在介紹Sora時就提到，它是一個世界模擬器。OpenAI認(rèn)為，只要數(shù)據(jù)量足夠大，模型就能通過預(yù)測下一幀像素，涌現(xiàn)出對物理規(guī)律的理解。通過學(xué)習(xí)數(shù)十億的視頻片段，它記住了“人走路時腿會交替”、“玻璃杯掉落會破碎”的概率分布。

Sora作為世界模型的爭議很大，最直接的一點就是它無法回應(yīng)LeCun對于動作與世界狀態(tài)的因果律——如果模型只能像放電影一樣生成視頻，而不能回答“如果我踢了這個球，它會怎么飛”這樣的動作交互，那么它可能只是記住了“球飛行的軌跡概率”，而不是理解了“力學(xué)定律”。

那么，如果這個視頻生成能夠根據(jù)用戶的動作輸入，實時預(yù)測下一幀呢？

于是，生成派衍生出了更進一步的形態(tài)：互動式生成視頻（Interactive Generative Video），例如Genie3。

和Sora不一樣，IGV的區(qū)別在于實時性、可交互性，也就是有了動作（Action）。谷歌 DeepMind 發(fā)布的 Genie 3，將其明確定位為「通用目的世界模型」。它允許用戶進入場景并與之互動，支持生成 720p 分辨率、24fps 幀率的實時畫面。用戶可以自由導(dǎo)航，比如以第一人稱視角駕駛或探索復(fù)雜地形。這意味著模型不僅理解畫面，還理解了動作與環(huán)境變化的因果關(guān)系，盡管目前這個動作僅限于方向按鍵的上下左右。

最后，則是李飛飛所主張的“3D空間智能（Spatial Intelligence）”，以World Labs發(fā)布的Marble為最新代表。

如果說前兩者是在處理視頻流，那么Marble則是試圖從底層構(gòu)建一個持久的、可下載的3D環(huán)境。

這條路線的技術(shù)底座更接近于“3D高斯?jié)姙R（3D Gaussian Splatting）”。它不依賴傳統(tǒng)的網(wǎng)格建模，而是將世界表征為成千上萬個漂浮在空間中的彩色模糊小斑點（高斯體）。通過這些微粒的聚合，模型能渲染出精美的三維畫面，并允許用戶通過提示詞生成、利用內(nèi)置編輯器自由改造，支持一鍵導(dǎo)出到Unity等引擎中。

盡管Marble現(xiàn)在離李飛飛所提到的空間智能還很遠(yuǎn)，但可以看出她認(rèn)為達(dá)到空間智能的第一步，先要建立一個高精度的物理準(zhǔn)確的3D空間。我們可以總結(jié)一下，區(qū)別于Sora，Marble生成的是一個符合物理規(guī)律的3D世界，區(qū)別于Genie3，Marble不是實時生成的世界，但它的精度和還原度更高。

但這些路線的成果，都沒有達(dá)到各自所期待的世界模型的模樣，甚至彼此間吵得不可開交，也都有一批擁護者，而這也導(dǎo)致“世界模型”的概念外延被無限擴大。

如今，凡是涉及環(huán)境理解與模擬的上下游工程，不管是具身智能、自動駕駛、游戲視頻等結(jié)構(gòu)化的垂直領(lǐng)域，還是生成式視頻、多模態(tài)模型、視頻理解、3D模型等技術(shù)，甚至做視覺信息壓縮的DeepSeek OCR，全都主動或者被動地和世界模型掛上了鉤。

世界模型越來越像一個筐，啥都能往里裝了。

有泡沫也有野心，世界模型是一種“反LLM中心”敘事

如果僅僅是技術(shù)路線的不同，不足以解釋為何“世界模型”會在今年會井噴。熱潮背后，交織著資本的焦慮、技術(shù)的瓶頸以及對AGI的渴望。

我們必須先承認(rèn)，這里面有巨大的泡沫成分。

在創(chuàng)投圈，敘事往往比代碼更值錢。當(dāng)“大語言模型”的競爭格局已定，OpenAI、Google等瓜分了基礎(chǔ)模型的天下，后來者和垂直應(yīng)用開發(fā)者急需一個新故事來打動投資人。

“視頻生成模型”聽起來就是一個工具軟件，天花板有限；但一旦改名叫“世界模型”，瞬間就上升到了AGI的高度。

這也是當(dāng)下AI時代一個有趣的現(xiàn)象：科研人員大規(guī)模下場創(chuàng)辦公司，學(xué)術(shù)與商業(yè)發(fā)生了重疊。

在純粹的科研世界里，所有的創(chuàng)新都必須建立在嚴(yán)謹(jǐn)?shù)墓碇稀Ｈ绻阋鉀Q一個問題（如實現(xiàn)AGI），你首先必須精準(zhǔn)地定義這個問題。然而，當(dāng) Lab 變成了 Company，學(xué)術(shù)大佬們變成了CEO，這種原本局限在期刊里的“定義之爭”，就被拋到了商業(yè)世界。

在科研中，不同路線可以共存；但在創(chuàng)業(yè)公司中，資源是有限的，如果 A 定義是對的，B 公司的幾十億投入可能就打了水漂，一個定義的差異，對應(yīng)的卻是數(shù)以億計的算力投入方向，上下游產(chǎn)業(yè)鏈的備貨，投資人的價值重構(gòu)。

而當(dāng)我們拋開定義爭奪和炒作，世界模型的興起，也像是一場“反LLM中心主義”的運動。

整個AI行業(yè)對大語言模型（LLM）產(chǎn)生了一種集體性的技術(shù)焦慮。這種焦慮源于LLM的先天缺陷：它是“離身”（Disembodied）的。LLM是在純文本的符號系統(tǒng)中訓(xùn)練出來的，它知道“蘋果”這個詞和“紅色”、“甜”經(jīng)常一起出現(xiàn)，但它從未真正“看見”過蘋果，也無法理解蘋果掉在地上的重力加速度，更別提隨著數(shù)據(jù)規(guī)模的擴大，AI提升的邊際效益正在遞減。

無論是Ilya Sutskever在離職OpenAI后強調(diào)的“超越大模型”，還是李飛飛提出的“空間智能”，核心都在于一點：AI需要從學(xué)習(xí)“人類說的話”，轉(zhuǎn)向?qū)W習(xí)“世界發(fā)生的事”。行業(yè)正在從單純的文本處理，轉(zhuǎn)向?qū)ξ锢憩F(xiàn)實的模擬與交互，因為大家都意識到，通往AGI的最后一塊拼圖，不在互聯(lián)網(wǎng)的文本數(shù)據(jù)里，而在真實的物理世界中。

只是希望在世界模型真正出現(xiàn)之前，這個詞不要先被玩壞了。

打印本頁 || 關(guān)閉窗口

上一篇:開開門創(chuàng)投受邀參加 “創(chuàng)業(yè)黔行”首場投融資對接會
下一篇:

行業(yè)新聞

Industry News

關(guān)于我們

公司新聞

行業(yè)新聞

優(yōu)質(zhì)項目

資料下載

服務(wù)交流