近期,科技界迎來了一波關(guān)于世界模型的創(chuàng)新浪潮,其中,由人工智能領(lǐng)域的領(lǐng)軍人物李飛飛創(chuàng)立的World Labs公司率先發(fā)力,于12月初推出了其首個項目——大世界模型(Large World Model,簡稱LWM)。該項目通過一張圖片即可將二維場景轉(zhuǎn)化為三維空間,用戶能在其中自由移動并切換視角,且生成的場景嚴格遵循空間原理和物理定律。
李飛飛透露,大世界模型僅是Worlds Labs邁出的第一步,公司未來的愿景是將這項技術(shù)融入增強現(xiàn)實(AR)、機器人乃至自動駕駛領(lǐng)域,進一步拓寬其應(yīng)用場景。
緊接著,Google DeepMind也不甘落后,推出了Genie2,這款工具能夠根據(jù)單張圖片生成無限的3D世界,并應(yīng)用于AI游戲及智能體訓(xùn)練中。這意味著Genie2不僅能夠模擬虛擬世界,還具備物體交互、復(fù)雜角色動畫、物理模擬以及預(yù)測其他智能體行為的能力。
隨后,在OpenAI發(fā)布會直播的第三天,此前在理解和模擬現(xiàn)實領(lǐng)域備受矚目的Sora也推出了其升級版Sora Turbo。Sora Turbo在模擬運動中的物理世界時,顯著增強了其可編輯性,為構(gòu)建與物理世界互動的模型邁出了重要一步。
世界模型的概念自2018年起逐漸受到廣泛關(guān)注??茖W(xué)家指出,人類通過有限的感官感知世界,并據(jù)此構(gòu)建出一個簡化的內(nèi)部世界模型,這個模型不僅幫助我們理解世界,還指導(dǎo)我們預(yù)測未來。在計算機領(lǐng)域,世界模型同樣基于有限且選擇性的信息進行決策和預(yù)測,包含了觀察、狀態(tài)估計、動作建議和潛在變量建議等核心元素。
在智能汽車領(lǐng)域,世界模型的應(yīng)用同樣前景廣闊。隨著高通8295芯片的普及和AR-HUD技術(shù)的廣泛應(yīng)用,3D人機界面(HMI)正成為智能座艙發(fā)展的新趨勢。用戶可以通過3D方式探索整個座艙場景,實現(xiàn)多視角切換,這種連貫且直接的體驗正在重塑座艙的交互和信息呈現(xiàn)方式。
AI在智能座艙中的快速應(yīng)用正在構(gòu)建視覺、聽覺、語義等多模態(tài)融合的全新體驗。雖然目前世界模型在座艙中的應(yīng)用尚不成熟,但它預(yù)示著未來座艙將從被動接受指令轉(zhuǎn)變?yōu)橹鲃油扑]和預(yù)測,并更加精準地融合人、車、外部環(huán)境的感知信息,實現(xiàn)千人千面的個性化體驗。
在智能駕駛方面,世界模型同樣展現(xiàn)出巨大潛力。2024年,自動駕駛端到端大模型成為車企競逐的新焦點。這一模型取代了傳統(tǒng)的感知、描述、預(yù)測及規(guī)劃模塊,通過統(tǒng)一的神經(jīng)網(wǎng)絡(luò)架構(gòu)實現(xiàn)環(huán)境感知到車輛控制的全流程自動化,使自動駕駛更接近人類的真實駕駛。
蔚來汽車在其蔚來世界模型(NWM)中展示了世界模型在自動駕駛方面的應(yīng)用潛力。NWM能夠在極短時間內(nèi)推演出多種車輛可能的軌跡,并根據(jù)外界信息不斷更新內(nèi)在時空模型,從而找到最佳駕駛決策。世界模型不僅降低了自動駕駛的訓(xùn)練成本,提高了開發(fā)速度,還為復(fù)雜場景的訓(xùn)練提供了可能。
隨著科技公司的不斷推動和演進,世界模型正逐步走向成熟,為智能汽車成為人們的智能出行伴侶或移動智能機器人奠定了堅實基礎(chǔ)。