OpenAI在近期圓滿完成了其為期12天的直播系列,這一連串的活動不僅吸引了大量觀眾的關(guān)注,更讓人們覺得,通用人工智能(AGI)的實(shí)現(xiàn)似乎已不再遙不可及。
就在當(dāng)?shù)貢r間12月20日,人工智能領(lǐng)域的巨頭OpenAI正式揭曉了其最新的推理模型——o3及o3-mini。前一天,OpenAI的首席執(zhí)行官山姆·奧特曼(Sam Altman)已在社交媒體上通過三個“o”的暗示,預(yù)告了o3的到來。
有趣的是,關(guān)于新模型的命名,奧特曼透露了一個有趣的小插曲。他解釋說,為了避免與英國電信運(yùn)營商O2產(chǎn)生名稱上的沖突,他們決定跳過“o2”,直接將其命名為“o3”。他風(fēng)趣地表示:“我們起名字的能力實(shí)在太差,只能這樣做了?!?/p>
o3在多個性能測試中均展現(xiàn)出了令人矚目的提升。在編碼測試SWE-Bench Verified中,o3的性能相比其前代o1提高了22.8%。在Codeforces競技編程比賽中,o3的得分高達(dá)2727分,這一成績已經(jīng)超過了人類選手的平均水平,甚至高于OpenAI的首席科學(xué)家所取得的分?jǐn)?shù)(2655分)。在數(shù)學(xué)競賽AIME 2024和專家級科學(xué)問題基準(zhǔn)測試GPQA Diamond中,o3同樣取得了顯著進(jìn)步。而在FrontierMath這一極具挑戰(zhàn)性的數(shù)學(xué)和推理測試中,o3成功解決了25.2%的問題,而其他模型在這一測試中的表現(xiàn)均未超過2%。
盡管o3和o3-mini尚未正式發(fā)布,但安全研究人員已有機(jī)會注冊獲取o3-mini的預(yù)覽版,而o3的預(yù)覽版也將在未來某個時間點(diǎn)推出,具體日期尚未公布。在直播開始時,奧特曼就強(qiáng)調(diào),這次并非正式發(fā)布,而是對o3的一次預(yù)告。他透露,計劃在1月底先發(fā)布o(jì)3-mini,隨后再發(fā)布o(jì)3。
有報道稱,AI安全測試人員發(fā)現(xiàn),與傳統(tǒng)的非推理模型相比,OpenAI此前發(fā)布的o1在試圖欺騙人類用戶方面表現(xiàn)出更高的傾向。同樣,meta、Anthropic和谷歌的領(lǐng)先模型也存在類似的問題。而o3在這一方面的表現(xiàn)可能會更加突出。
為了應(yīng)對這一挑戰(zhàn),OpenAI在博客中表示,他們正在采用一種名為“慎重對齊”(deliberative alignment)的新技術(shù),以確保o3等模型符合其安全原則。通過所謂的“私人思維鏈”,o3被訓(xùn)練成在做出反應(yīng)之前先進(jìn)行“思考”。它能夠?qū)θ蝿?wù)進(jìn)行推理并提前規(guī)劃,在較長時間內(nèi)執(zhí)行一系列動作,從而找到解決方案。
在實(shí)際應(yīng)用中,當(dāng)o3收到一個提示時,它會在做出反應(yīng)之前暫停,考慮一些相關(guān)的提示,并沿途“解釋”其推理過程。經(jīng)過一段時間后,模型會總結(jié)出它認(rèn)為最準(zhǔn)確的答案。o3的一個新功能是“調(diào)整”推理時間,用戶可以根據(jù)需要設(shè)置低、中或高計算量(即思考時間),計算時間越長,執(zhí)行任務(wù)時的表現(xiàn)就越好。
Keras之父弗朗索瓦·肖萊(Francois Chollet)在o3發(fā)布后公布了一篇測試報告。報告顯示,在高計算量模式下,o3獲得了87.5%的分?jǐn)?shù);而在低計算量模式下,其性能是o1的三倍。然而,在成本方面,低計算量模式下每個任務(wù)需要花費(fèi)20美元,而在高計算量模式下每個任務(wù)則需要數(shù)千美元。
肖萊表示:“雖然o3非常昂貴,但它的能力并非僅僅依靠‘蠻干’——這些能力是全新的領(lǐng)域,需要科學(xué)界的認(rèn)真關(guān)注。”他認(rèn)為,雖然o3給人留下了深刻印象,是邁向AGI的一個重要里程碑,但它并不等同于AGI。仍有相當(dāng)多非常簡單的ARC-AGI-1任務(wù)是o3無法解決的,同時也有跡象表明,ARC-AGI-2對o3來說仍極具挑戰(zhàn)性。
肖萊指出,主要需要解決的問題是o3背后技術(shù)的擴(kuò)展瓶頸。如果人類標(biāo)注的CoT數(shù)據(jù)(思維鏈)是一個主要瓶頸,那么o3的能力就會像大模型一樣迅速達(dá)到頂峰(直到下一個架構(gòu)出現(xiàn))。如果唯一的瓶頸是測試時間搜索(Test-Time Search),那么未來我們將看到持續(xù)的擴(kuò)展。
值得注意的是,近期多家AI公司也紛紛發(fā)布了推理模型。例如,月之暗面(Moonshot AI)推出了新一代數(shù)學(xué)推理模型k0-math,DeepSeek發(fā)布了首個推理模型DeepSeek-R1-Lite預(yù)覽版,阿里云通義團(tuán)隊(duì)發(fā)布了全新AI推理模型QwQ-32B-Preview,而谷歌也發(fā)布了首個推理模型Gemini 2.0 Flash Thinking。
英偉達(dá)的首席執(zhí)行官黃仁勛在10月的一次訪談中表示,他看好推理領(lǐng)域的發(fā)展。他認(rèn)為,現(xiàn)在我們在后訓(xùn)練和推理階段看到了擴(kuò)展,預(yù)訓(xùn)練已不再被視為艱難,推理也變得復(fù)雜。推理方面即將因推理鏈的出現(xiàn)而大幅增長,這將是一場智能生產(chǎn)的革命。
月之暗面Kimi的創(chuàng)始人楊植麟也在11月表示,推理的占比必然會遠(yuǎn)超訓(xùn)練。AI產(chǎn)品和技術(shù)未來的發(fā)展,很重要的一點(diǎn)就是更加深度的推理能力,能夠?qū)F(xiàn)在只是短鏈路的簡單問答,變成更長鏈路的組合式任務(wù)的操作。