近年來,自動駕駛技術(shù)的演進路徑引發(fā)了業(yè)界的廣泛關(guān)注,一個名為“世界模型”的新概念逐漸浮出水面,被視為自動駕駛領(lǐng)域的一次重大革新。
自動駕駛技術(shù)雖然發(fā)展迅速,但傳統(tǒng)的端到端模式因其“黑盒子”特性而面臨諸多挑戰(zhàn)。這種模式下,上限的提升往往伴隨著下限的降低,形成了“蹺蹺板效應(yīng)”。無窮無盡的Corner Case和代碼編寫工作,使得自動駕駛的全面實現(xiàn)變得困難重重。因此,業(yè)界開始探索新的解決方案,世界模型應(yīng)運而生。
據(jù)不完全統(tǒng)計,目前已有超過十家車企和自動駕駛公司提出了世界模型的概念,其中包括特斯拉、英偉達、蔚來、小鵬、理想等知名企業(yè)。這些企業(yè)紛紛投入資源,致力于世界模型的研究與應(yīng)用。
世界模型的概念最早可以追溯到機器學習領(lǐng)域。2018年,一篇題為《Recurrent World Models Facilitate Policy Evolution》的論文在機器學習頂級會議NeurIPS上發(fā)表,該論文以認知科學中的人腦Mental Model為類比,提出了世界模型的概念。它認為,mental model參與了人類的認知、推理和決策過程,而反事實推理則是其核心能力之一。PLAM掌上電腦創(chuàng)始人杰夫·霍金斯的著作《千腦智能》也詳細介紹了人工智能領(lǐng)域中的世界模型概念。
隨著時間的推移,世界模型的應(yīng)用逐漸廣泛。2024年2月16日,Open AI公司發(fā)布了震驚全球的“文生視頻”大模型Sora,它可以根據(jù)文本自動生成60秒的視頻,這成為世界模型的一個具體實例。同時,谷歌DeepMind、李飛飛的World Labs等企業(yè)也發(fā)布了各自的世界模型。這些模型在自動駕駛、導(dǎo)航等領(lǐng)域展現(xiàn)出了巨大的潛力。
在國內(nèi),蔚來汽車是世界模型研究的佼佼者。在2023年的NIO Day上,蔚來宣布正在自研世界模型。一年后,在科技日上,蔚來智駕負責人任少卿發(fā)布了中國首個智能駕駛世界模型NWM。該模型具有全量理解數(shù)據(jù)、長時序推演和決策能力,能夠在100毫秒內(nèi)推演出216種可能發(fā)生的場景,并找到最優(yōu)決策。
除了蔚來之外,商湯絕影也推出了名為“開悟”的世界模型。該模型可以生成仿真數(shù)據(jù),與量產(chǎn)實車采集的真實數(shù)據(jù)結(jié)合,共同重建物理世界。商湯絕影CTO肖楓表示,世界模型將改變自動駕駛行業(yè)的競爭格局。
世界模型在自動駕駛領(lǐng)域的作用主要體現(xiàn)在兩個方面:一是通過生成式大模型生成帶有預(yù)測性質(zhì)的視頻數(shù)據(jù),實現(xiàn)Corner Case的多樣化訓(xùn)練;二是采用強化學習的方法認識復(fù)雜駕駛環(huán)境,從視頻輸出駕駛決策。構(gòu)建世界模型的方法主要有兩種:一種是憑空想象,“無中生有”;另一種是根據(jù)現(xiàn)有信息完善信息,如輸入文本、圖片、視頻等生成更多更豐富的視頻。
然而,世界模型的好壞評估卻是一個難題。目前,業(yè)界還沒有一個量化的準確辦法來評估世界模型的優(yōu)劣。只能大致從準確性、多樣性、可控性和泛化能力等方面進行評估。地平線提出了世界模型的兩個長遠價值:一是更準確的世界理解,有助于減少智駕系統(tǒng)的代碼量、延遲、網(wǎng)絡(luò)負載和錯誤率;二是泛化能力,世界模型可以形成對復(fù)雜駕駛環(huán)境的通用理解,而非對輸入的重復(fù)依賴。
隨著技術(shù)的不斷進步和應(yīng)用的深入,世界模型有望成為自動駕駛領(lǐng)域的一次重大突破。然而,如何更好地評估和優(yōu)化世界模型,以及如何處理真實數(shù)據(jù)與世界模型之間的關(guān)系,仍是業(yè)界需要繼續(xù)探索的問題。