本文來自微信公眾號: 硅星GenAI ,作者:黃小藝
世界模型,已經像這個世界一樣混亂了。
OpenAI指著Sora生成的視頻說,這就是“世界模擬器”;楊立昆(Yann LeCun)指著Sora,說它是像素幻覺,真正的世界模型應該是“預測未來的抽象大腦”;谷歌DeepMind稱,Genie3就是一個“可交互的通用世界模型”;而李飛飛說,“空間智能”才是正解。
現實世界是唯一的、客觀的,但AI圈里似乎人人都在制造屬于自己的“世界模型”。
盡管定義南轅北轍,但這群吵得不可開交的大佬們,在一個基本判斷上達成了共識:大語言模型早晚到頭,世界模型才是通往AGI的必經之路。
大語言模型在GPT-3.5之后經歷了參數的膨脹,而世界模型在技術路線收斂之前,就先經歷了概念的通貨膨脹。
世界模型是個筐,啥都往里裝
“世界模型”的混亂,根源在于它是一種目的,指的是讓AI具備理解外部世界規律,預測世界變化的能力,而非具體的技術路徑。
最先混亂的就是概念。
關于世界模型的思想,最早可追溯至1943年認知科學家Kenneth Craik提出的“心智模型(Mental Model)”,即大腦通過構建外部世界的微縮模型來進行預測,換句話說,我們腦中有一個心智模型,不僅能處理當前看到的信息,還能預測“如果我這樣做,世界會變成什么樣子”。
雖然該理論在20世紀90年代就被引入強化學習了,但真正讓它在現代AI領域擁有姓名的,是Jürgen Schmidhuber等人在2018年發表的奠基性論文《Recurrent World Models Facilitate Policy Evolution》。這篇論文首次系統定義了神經網絡世界模型的框架,那時它還是一個由視覺組件(VAE)、記憶組件(RNN)和控制器構成的具體架構,在簡陋的賽車游戲和二維類射擊游戲里訓練。
七年過去,隨著大語言模型的爆發,對通用人工智能的渴望讓這一概念在近兩年像“線面”一樣繁殖了。
Yann LeCun在2022年提出了以世界模型為核心的“自主智能”,強調通過模塊化設計和自監督學習獲取抽象表征,并在2023年、2024年先后推出了I-JEPA、V-JEPA預測模型。
李飛飛在2024年提出了“空間智能”理念,創辦World Labs,又新發布了Marble,主張世界模型必須具備生成可交互3D環境的物理一致性能力,“對我來說,空間智能是創造、推理、互動、理解深刻的空間世界的能力,無論是二維、三維還是四維,包括動態和所有這些。”
甚至連OpenAI前首席科學家Ilya Sutskever提到的“壓縮即智能”,本質上也是認為只要能無損地壓縮預測下一個token(無論是文本還是像素),模型內部就構建了一個關于世界的映射。
一個抽象的概念,衍生出了更多抽象的概念。
若剝離這些定義上的爭論,從技術方向來看,當前世界模型主要分為兩大流派,分別對應了兩種截然不同的世界觀:表征派(Representation)與生成派(Generation)。
Yann LeCun就是“表征派”,這是一條不產生畫面的極簡主義路線。
類比人腦中的心智模型(Mental Model),我們對世界的預測和行動,往往是一種直覺,不是物理公式或者具體的畫面。基于此,LeCun的世界模型是一個深藏在系統后端的“大腦”,它只在表征處理后的潛在空間里運作,預測的是“抽象狀態”。
在這篇推文中,LeCun明確定義了一個世界模型需要同時輸入四個變量,對先前世界狀態的預估s(t),對當前的觀察x(t),當前的動作a(t),一個潛在變量z(t),結合四個變量來預測下一時刻的世界狀態s(t+1)。
這個定義有兩個關鍵點,一是世界模型預測下一刻的“狀態”而不是畫面,二是能針對連續的動作交互進行因果推斷。
比如一輛車開過來,它不會在腦海里畫出車牌號和反光,只會計算出“障礙物靠近”這一狀態。這種模型不為了給人看,只為了給機器做決策,它追求的是邏輯上的因果推演,而非視覺上的逼真。LeCun提出的I-JEPA(聯合嵌入預測架構)和V-JEPA,都摒棄了生成式AI“預測每一個像素”的做法,畢竟現實世界充滿了不可預測的噪音(比如樹葉的紋理),AI不應該浪費算力去生成這些細節。
第二大流派則是目前聲量最大的“生成派”,和Yann LeCun最核心的區別就在于,他們要重建、模擬視覺世界。
這一派常常引用一句來自物理學家Richard Feynman的名言:“What I cannot create,I do not understand.——我若無法創造,便不能理解。”也就是說,只要模型能生成對的世界,就證明它懂了世界的物理規律。
2024年初,OpenAI在介紹Sora時就提到,它是一個世界模擬器。OpenAI認為,只要數據量足夠大,模型就能通過預測下一幀像素,涌現出對物理規律的理解。通過學習數十億的視頻片段,它記住了“人走路時腿會交替”、“玻璃杯掉落會破碎”的概率分布。
Sora作為世界模型的爭議很大,最直接的一點就是它無法回應LeCun對于動作與世界狀態的因果律——如果模型只能像放電影一樣生成視頻,而不能回答“如果我踢了這個球,它會怎么飛”這樣的動作交互,那么它可能只是記住了“球飛行的軌跡概率”,而不是理解了“力學定律”。
那么,如果這個視頻生成能夠根據用戶的動作輸入,實時預測下一幀呢?
于是,生成派衍生出了更進一步的形態:互動式生成視頻(Interactive Generative Video),例如Genie3。
和Sora不一樣,IGV的區別在于實時性、可交互性,也就是有了動作(Action)。谷歌DeepMind發布的Genie 3,將其明確定位為「通用目的世界模型」。它允許用戶進入場景并與之互動,支持生成720p分辨率、24fps幀率的實時畫面。用戶可以自由導航,比如以第一人稱視角駕駛或探索復雜地形。這意味著模型不僅理解畫面,還理解了動作與環境變化的因果關系,盡管目前這個動作僅限于方向按鍵的上下左右。
最后,則是李飛飛所主張的“3D空間智能(Spatial Intelligence)”,以World Labs發布的Marble為最新代表。
如果說前兩者是在處理視頻流,那么Marble則是試圖從底層構建一個持久的、可下載的3D環境。
這條路線的技術底座更接近于“3D高斯潑濺(3D Gaussian Splatting)”。它不依賴傳統的網格建模,而是將世界表征為成千上萬個漂浮在空間中的彩色模糊小斑點(高斯體)。通過這些微粒的聚合,模型能渲染出精美的三維畫面,并允許用戶通過提示詞生成、利用內置編輯器自由改造,支持一鍵導出到Unity等引擎中。
盡管Marble現在離李飛飛所提到的空間智能還很遠,但可以看出她認為達到空間智能的第一步,先要建立一個高精度的物理準確的3D空間。我們可以總結一下,區別于Sora,Marble生成的是一個符合物理規律的3D世界,區別于Genie3,Marble不是實時生成的世界,但它的精度和還原度更高。
但這些路線的成果,都沒有達到各自所期待的世界模型的模樣,甚至彼此間吵得不可開交,也都有一批擁護者,而這也導致“世界模型”的概念外延被無限擴大。
如今,凡是涉及環境理解與模擬的上下游工程,不管是具身智能、自動駕駛、游戲視頻等結構化的垂直領域,還是生成式視頻、多模態模型、視頻理解、3D模型等技術,甚至做視覺信息壓縮的DeepSeek OCR,全都主動或者被動地和世界模型掛上了鉤。
世界模型越來越像一個筐,啥都能往里裝了。
有泡沫也有野心,世界模型是一種“反LLM中心”敘事
如果僅僅是技術路線的不同,不足以解釋為何“世界模型”會在今年會井噴。熱潮背后,交織著資本的焦慮、技術的瓶頸以及對AGI的渴望。
我們必須先承認,這里面有巨大的泡沫成分。
在創投圈,敘事往往比代碼更值錢。當“大語言模型”的競爭格局已定,OpenAI、Google等瓜分了基礎模型的天下,后來者和垂直應用開發者急需一個新故事來打動投資人。
“視頻生成模型”聽起來就是一個工具軟件,天花板有限;但一旦改名叫“世界模型”,瞬間就上升到了AGI的高度。
這也是當下AI時代一個有趣的現象:科研人員大規模下場創辦公司,學術與商業發生了重疊。
在純粹的科研世界里,所有的創新都必須建立在嚴謹的公理之上。如果你要解決一個問題(如實現AGI),你首先必須精準地定義這個問題。然而,當Lab變成了Company,學術大佬們變成了CEO,這種原本局限在期刊里的“定義之爭”,就被拋到了商業世界。
在科研中,不同路線可以共存;但在創業公司中,資源是有限的,如果A定義是對的,B公司的幾十億投入可能就打了水漂,一個定義的差異,對應的卻是數以億計的算力投入方向,上下游產業鏈的備貨,投資人的價值重構。
而當我們拋開定義爭奪和炒作,世界模型的興起,也像是一場“反LLM中心主義”的運動。
整個AI行業對大語言模型(LLM)產生了一種集體性的技術焦慮。這種焦慮源于LLM的先天缺陷:它是“離身”(Disembodied)的。LLM是在純文本的符號系統中訓練出來的,它知道“蘋果”這個詞和“紅色”、“甜”經常一起出現,但它從未真正“看見”過蘋果,也無法理解蘋果掉在地上的重力加速度,更別提隨著數據規模的擴大,AI提升的邊際效益正在遞減。
無論是Ilya Sutskever在離職OpenAI后強調的“超越大模型”,還是李飛飛提出的“空間智能”,核心都在于一點:AI需要從學習“人類說的話”,轉向學習“世界發生的事”。行業正在從單純的文本處理,轉向對物理現實的模擬與交互,因為大家都意識到,通往AGI的最后一塊拼圖,不在互聯網的文本數據里,而在真實的物理世界中。
只是希望在世界模型真正出現之前,這個詞不要先被玩壞了。