| 世界太小,不夠世界模型們用了 | |
| 發(fā)布時間:2025-12-05 15:35:14 | 瀏覽次數(shù): | |
硅星人 黃小藝
世界模型,已經(jīng)像這個世界一樣混亂了。
OpenAI指著Sora生成的視頻說,這就是“世界模擬器”;楊立昆(Yann LeCun)指著Sora,說它是像素幻覺,真正的世界模型應(yīng)該是“預(yù)測未來的抽象大腦”;谷歌DeepMind稱,Genie3就是一個“可交互的通用世界模型”;而李飛飛說,“空間智能”才是正解。
現(xiàn)實世界是唯 一的、客觀的,但AI圈里似乎人人都在制造屬于自己的“世界模型”。
盡管定義南轅北轍,但這群吵得不可開交的大佬們,在一個基本判斷上達(dá)成了共識:大語言模型早晚到頭,世界模型才是通往AGI的必經(jīng)之路。
大語言模型在GPT-3.5之后經(jīng)歷了參數(shù)的膨脹,而世界模型在技術(shù)路線收斂之前,就先經(jīng)歷了概念的通貨膨脹。
世界模型是個筐,啥都往里裝
“世界模型”的混亂,根源在于它是一種目的,指的是讓AI具備理解外部世界規(guī)律,預(yù)測世界變化的能力,而非具體的技術(shù)路徑。
最 先混亂的就是概念。
關(guān)于世界模型的思想,最早可追溯至1943年認(rèn)知科學(xué)家Kenneth Craik提出的“心智模型(Mental Model)”,即大腦通過構(gòu)建外部世界的微縮模型來進行預(yù)測,換句話說,我們腦中有一個心智模型,不僅能處理當(dāng)前看到的信息,還能預(yù)測“如果我這樣做,世界會變成什么樣子”。
雖然該理論在20世紀(jì)90年代就被引入強化學(xué)習(xí)了,但真正讓它在現(xiàn)代AI領(lǐng)域擁有姓名的,是Jürgen Schmidhuber等人在2018年發(fā)表的奠基性論文《Recurrent World Models Facilitate Policy Evolution》。這篇論文首次系統(tǒng)定義了神經(jīng)網(wǎng)絡(luò)世界模型的框架,那時它還是一個由視覺組件(VAE)、記憶組件(RNN)和控制器構(gòu)成的具體架構(gòu),在簡陋的賽車游戲和二維類射擊游戲里訓(xùn)練。
七年過去,隨著大語言模型的爆發(fā),對通用人工智能的渴望讓這一概念在近兩年像“線面”一樣繁殖了。
Yann LeCun在2022年提出了以世界模型為核心的“自主智能”,強調(diào)通過模塊化設(shè)計和自監(jiān)督學(xué)習(xí)獲取抽象表征,并在2023年、2024年先后推出了I-JEPA、V-JEPA預(yù)測模型。
李飛飛在2024年提出了“空間智能”理念,創(chuàng)辦World Labs,又新發(fā)布了Marble,主張世界模型必須具備生成可交互3D環(huán)境的物理一致性能力,“對我來說,空間智能是創(chuàng)造、推理、互動、理解深刻的空間世界的能力,無論是二維、三維還是四維,包括動態(tài)和所有這些。”
甚至連OpenAI前首席科學(xué)家Ilya Sutskever提到的“壓縮即智能”,本質(zhì)上也是認(rèn)為只要能無損地壓縮預(yù)測下一個token(無論是文本還是像素),模型內(nèi)部就構(gòu)建了一個關(guān)于世界的映射。
一個抽象的概念,衍生出了更多抽象的概念。
若剝離這些定義上的爭論,從技術(shù)方向來看,當(dāng)前世界模型主要分為兩大流派,分別對應(yīng)了兩種截然不同的世界觀:表征派(Representation)與生成派(Generation)。
Yann LeCun就是“表征派”,這是一條不產(chǎn)生畫面的極簡主義路線。
類比人腦中的心智模型(Mental Model),我們對世界的預(yù)測和行動,往往是一種直覺,不是物理公式或者具體的畫面。基于此,LeCun的世界模型是一個深藏在系統(tǒng)后端的“大腦”,它只在表征處理后的潛在空間里運作,預(yù)測的是“抽象狀態(tài)”。
在這篇推文中,LeCun明確定義了一個世界模型需要同時輸入四個變量,對先前世界狀態(tài)的預(yù)估s(t),對當(dāng)前的觀察x(t),當(dāng)前的動作a(t),一個潛在變量z(t),結(jié)合四個變量來預(yù)測下一時刻的世界狀態(tài)s(t+1)。
這個定義有兩個關(guān)鍵點,一是世界模型預(yù)測下一刻的“狀態(tài)”而不是畫面,二是能針對連續(xù)的動作交互進行因果推斷。
比如一輛車開過來,它不會在腦海里畫出車牌號和反光,只會計算出“障礙物靠近”這一狀態(tài)。這種模型不為了給人看,只為了給機器做決策,它追求的是邏輯上的因果推演,而非視覺上的逼真。LeCun提出的I-JEPA(聯(lián)合嵌入預(yù)測架構(gòu))和V-JEPA,都摒棄了生成式AI“預(yù)測每一個像素”的做法,畢竟現(xiàn)實世界充滿了不可預(yù)測的噪音(比如樹葉的紋理),AI不應(yīng)該浪費算力去生成這些細(xì)節(jié)。
第二大流派則是目前聲量最 大的“生成派”,和Yann LeCun最核心的區(qū)別就在于,他們要重建、模擬視覺世界。
這一派常常引用一句來自物理學(xué)家Richard Feynman的名言:“What I cannot create, I do not understand. —— 我若無法創(chuàng)造,便不能理解。”也就是說,只要模型能生成對的世界,就證明它懂了世界的物理規(guī)律。
2024年初,OpenAI在介紹Sora時就提到,它是一個世界模擬器。OpenAI認(rèn)為,只要數(shù)據(jù)量足夠大,模型就能通過預(yù)測下一幀像素,涌現(xiàn)出對物理規(guī)律的理解。通過學(xué)習(xí)數(shù)十億的視頻片段,它記住了“人走路時腿會交替”、“玻璃杯掉落會破碎”的概率分布。
Sora作為世界模型的爭議很大,最直接的一點就是它無法回應(yīng)LeCun對于動作與世界狀態(tài)的因果律——如果模型只能像放電影一樣生成視頻,而不能回答“如果我踢了這個球,它會怎么飛”這樣的動作交互,那么它可能只是記住了“球飛行的軌跡概率”,而不是理解了“力學(xué)定律”。
那么,如果這個視頻生成能夠根據(jù)用戶的動作輸入,實時預(yù)測下一幀呢?
于是,生成派衍生出了更進一步的形態(tài):互動式生成視頻(Interactive Generative Video),例如Genie3。
和Sora不一樣,IGV的區(qū)別在于實時性、可交互性,也就是有了動作(Action)。谷歌 DeepMind 發(fā)布的 Genie 3,將其明確定位為「通用目的世界模型」。它允許用戶進入場景并與之互動,支持生成 720p 分辨率、24fps 幀率的實時畫面。用戶可以自由導(dǎo)航,比如以第 一人稱視角駕駛或探索復(fù)雜地形。這意味著模型不僅理解畫面,還理解了動作與環(huán)境變化的因果關(guān)系,盡管目前這個動作僅限于方向按鍵的上下左右。
最后,則是李飛飛所主張的“3D空間智能(Spatial Intelligence)”,以World Labs發(fā)布的Marble為最新代表。
如果說前兩者是在處理視頻流,那么Marble則是試圖從底層構(gòu)建一個持久的、可下載的3D環(huán)境。
這條路線的技術(shù)底座更接近于“3D高斯?jié)姙R(3D Gaussian Splatting)”。它不依賴傳統(tǒng)的網(wǎng)格建模,而是將世界表征為成千上萬個漂浮在空間中的彩色模糊小斑點(高斯體)。通過這些微粒的聚合,模型能渲染出精美的三維畫面,并允許用戶通過提示詞生成、利用內(nèi)置編輯器自由改造,支持一鍵導(dǎo)出到Unity等引擎中。
盡管Marble現(xiàn)在離李飛飛所提到的空間智能還很遠(yuǎn),但可以看出她認(rèn)為達(dá)到空間智能的第 一步,先要建立一個高精度的物理準(zhǔn)確的3D空間。我們可以總結(jié)一下,區(qū)別于Sora,Marble生成的是一個符合物理規(guī)律的3D世界,區(qū)別于Genie3,Marble不是實時生成的世界,但它的精度和還原度更高。
但這些路線的成果,都沒有達(dá)到各自所期待的世界模型的模樣,甚至彼此間吵得不可開交,也都有一批擁護者,而這也導(dǎo)致“世界模型”的概念外延被無限擴大。
如今,凡是涉及環(huán)境理解與模擬的上下游工程,不管是具身智能、自動駕駛、游戲視頻等結(jié)構(gòu)化的垂直領(lǐng)域,還是生成式視頻、多模態(tài)模型、視頻理解、3D模型等技術(shù),甚至做視覺信息壓縮的DeepSeek OCR,全都主動或者被動地和世界模型掛上了鉤。
世界模型越來越像一個筐,啥都能往里裝了。
有泡沫也有野心,世界模型是一種“反LLM中心”敘事
如果僅僅是技術(shù)路線的不同,不足以解釋為何“世界模型”會在今年會井噴。熱潮背后,交織著資本的焦慮、技術(shù)的瓶頸以及對AGI的渴望。
我們必須先承認(rèn),這里面有巨大的泡沫成分。
在創(chuàng)投圈,敘事往往比代碼更值錢。當(dāng)“大語言模型”的競爭格局已定,OpenAI、Google等瓜分了基礎(chǔ)模型的天下,后來者和垂直應(yīng)用開發(fā)者急需一個新故事來打動投資人。
“視頻生成模型”聽起來就是一個工具軟件,天花板有限;但一旦改名叫“世界模型”,瞬間就上升到了AGI的高度。
這也是當(dāng)下AI時代一個有趣的現(xiàn)象:科研人員大規(guī)模下場創(chuàng)辦公司,學(xué)術(shù)與商業(yè)發(fā)生了重疊。
在純粹的科研世界里,所有的創(chuàng)新都必須建立在嚴(yán)謹(jǐn)?shù)墓碇稀H绻阋鉀Q一個問題(如實現(xiàn)AGI),你首先必須精準(zhǔn)地定義這個問題。然而,當(dāng) Lab 變成了 Company,學(xué)術(shù)大佬們變成了CEO,這種原本局限在期刊里的“定義之爭”,就被拋到了商業(yè)世界。
在科研中,不同路線可以共存;但在創(chuàng)業(yè)公司中,資源是有限的,如果 A 定義是對的,B 公司的幾十億投入可能就打了水漂,一個定義的差異,對應(yīng)的卻是數(shù)以億計的算力投入方向,上下游產(chǎn)業(yè)鏈的備貨,投資人的價值重構(gòu)。
而當(dāng)我們拋開定義爭奪和炒作,世界模型的興起,也像是一場“反LLM中心主義”的運動。
整個AI行業(yè)對大語言模型(LLM)產(chǎn)生了一種集體性的技術(shù)焦慮。這種焦慮源于LLM的先天缺陷:它是“離身”(Disembodied)的。LLM是在純文本的符號系統(tǒng)中訓(xùn)練出來的,它知道“蘋果”這個詞和“紅色”、“甜”經(jīng)常一起出現(xiàn),但它從未真正“看見”過蘋果,也無法理解蘋果掉在地上的重力加速度,更別提隨著數(shù)據(jù)規(guī)模的擴大,AI提升的邊際效益正在遞減。
無論是Ilya Sutskever在離職OpenAI后強調(diào)的“超越大模型”,還是李飛飛提出的“空間智能”,核心都在于一點:AI需要從學(xué)習(xí)“人類說的話”,轉(zhuǎn)向?qū)W習(xí)“世界發(fā)生的事”。行業(yè)正在從單純的文本處理,轉(zhuǎn)向?qū)ξ锢憩F(xiàn)實的模擬與交互,因為大家都意識到,通往AGI的最后一塊拼圖,不在互聯(lián)網(wǎng)的文本數(shù)據(jù)里,而在真實的物理世界中。
只是希望在世界模型真正出現(xiàn)之前,這個詞不要先被玩壞了。
|
|
|
|
| 上一篇:開開門創(chuàng)投受邀參加 “創(chuàng)業(yè)黔行”首場投融資對接會 下一篇: |