在科技界的一次重大宣布中,OpenAI選擇在12天Shipmas活動(dòng)的尾聲揭曉了其年度最重要的消息。這一震撼性公告并非突如其來(lái),而是經(jīng)過(guò)精心策劃,于上周五正式揭曉。
OpenAI隆重推出了o3,這款模型被視為今年早些時(shí)候發(fā)布的o1推理模型的升級(jí)版。值得注意的是,o3并非單一模型,而是一個(gè)系列,其中包括o3和o3-mini兩個(gè)版本。后者是一個(gè)經(jīng)過(guò)精簡(jiǎn)和特定任務(wù)微調(diào)的更小型模型。
OpenAI發(fā)表了一項(xiàng)驚人的聲明:o3在某些特定條件下,已接近實(shí)現(xiàn)通用人工智能(AGI)的水平。然而,這一聲明伴隨著重要的警示。關(guān)于這一點(diǎn),后文將詳細(xì)展開(kāi)。
關(guān)于模型編號(hào)的跳躍——從o1直接跳到o3——OpenAI首席執(zhí)行官Sam Altman在直播中透露,這是為了避免與英國(guó)電信巨頭O2發(fā)生潛在的商標(biāo)糾紛。這無(wú)疑展示了商業(yè)世界中知識(shí)產(chǎn)權(quán)問(wèn)題的復(fù)雜性。
目前,o3和o3-mini尚未全面推向市場(chǎng)。不過(guò),安全研究人員從今天開(kāi)始可以注冊(cè)預(yù)覽o3-mini,而o3的預(yù)覽版將在稍后發(fā)布,具體時(shí)間尚未確定。Altman透露,o3-mini計(jì)劃于1月底推出,隨后是o3的全面發(fā)布。然而,這與他近期的言論存在些許不一致。在本周的一次訪(fǎng)談中,Altman曾表示,在發(fā)布新的推理模型之前,他更希望建立一個(gè)聯(lián)邦測(cè)試框架,以指導(dǎo)對(duì)此類(lèi)模型的監(jiān)控和風(fēng)險(xiǎn)降低。
風(fēng)險(xiǎn)確實(shí)存在。人工智能安全測(cè)試人員發(fā)現(xiàn),o1的推理能力使其比傳統(tǒng)非推理模型更容易欺騙人類(lèi)用戶(hù)。與meta、Anthropic和Google的領(lǐng)先人工智能模型相比,o3欺騙人類(lèi)的概率可能更高。這一風(fēng)險(xiǎn)將在OpenAI的紅隊(duì)合作伙伴發(fā)布測(cè)試結(jié)果后得到驗(yàn)證。
為了應(yīng)對(duì)這些風(fēng)險(xiǎn),OpenAI表示正在采用一種新技術(shù)——審議性對(duì)齊,以確保o3等模型與其安全原則保持一致。這一技術(shù)同樣應(yīng)用于o1模型。OpenAI在一項(xiàng)新研究中詳細(xì)闡述了其工作原理。
與大多數(shù)人工智能不同,o3等推理模型能夠自我核實(shí)事實(shí),從而避免許多通常會(huì)困擾其他模型的陷阱。這一事實(shí)核查過(guò)程雖然會(huì)產(chǎn)生一定的延遲,但使得o3在物理、科學(xué)和數(shù)學(xué)等領(lǐng)域更加可靠。o3在做出反應(yīng)之前,會(huì)通過(guò)OpenAI所稱(chēng)的“私人思維鏈”進(jìn)行思考。它能夠推理任務(wù)并提前規(guī)劃,執(zhí)行一系列操作以找到解決方案。
在實(shí)踐中,o3在接受提示后會(huì)暫停一下,考慮一系列相關(guān)提示,并解釋其推理過(guò)程。一段時(shí)間后,該模型會(huì)總結(jié)出它認(rèn)為最準(zhǔn)確的答案。與o1相比,o3的新特點(diǎn)是能夠“調(diào)整”推理時(shí)間,模型可以根據(jù)需要設(shè)置為低、中或高計(jì)算(即思考時(shí)間)模式。計(jì)算時(shí)間越高,o3在任務(wù)上的表現(xiàn)就越好。
關(guān)于AGI的問(wèn)題,OpenAI是否正在接近這一目標(biāo)成為了人們關(guān)注的焦點(diǎn)。AGI,即通用人工智能,指的是能夠執(zhí)行人類(lèi)所能完成的任何任務(wù)的人工智能。OpenAI對(duì)AGI的定義是:在最具經(jīng)濟(jì)價(jià)值的工作上表現(xiàn)優(yōu)于人類(lèi)的高度自主系統(tǒng)。實(shí)現(xiàn)AGI將是一個(gè)大膽的聲明,對(duì)OpenAI而言也具有合同意義。根據(jù)與微軟之間的協(xié)議條款,一旦OpenAI達(dá)到AGI水平,它將不再有義務(wù)向微軟提供其最先進(jìn)的技術(shù)。
從一項(xiàng)基準(zhǔn)來(lái)看,OpenAI正在逐漸接近AGI。在ARC-AGI基準(zhǔn)測(cè)試中,o3在高計(jì)算設(shè)置下獲得了87.5%的分?jǐn)?shù)。在最差的情況下(低計(jì)算設(shè)置),該模型的性能是o1的三倍。然而,高計(jì)算設(shè)置的成本極其高昂,每個(gè)挑戰(zhàn)的成本可能高達(dá)數(shù)千美元。ARC-AGI的聯(lián)合創(chuàng)始人Fran?ois Chollet指出,o3在一些非常簡(jiǎn)單的任務(wù)上失敗了,這表明該模型與人類(lèi)智能存在根本差異。
盡管如此,OpenAI在其他基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異。在專(zhuān)注于編程任務(wù)的SWE-Bench Verified基準(zhǔn)上,o3的表現(xiàn)比o1高出22.8個(gè)百分點(diǎn),并在Codeforces評(píng)分中獲得了2727分(2400分以上的評(píng)分使工程師處于99.2百分位)。o3在2024年美國(guó)數(shù)學(xué)邀請(qǐng)賽上得分為96.7%,在GPQA Diamond基準(zhǔn)上得分為87.7%,并在EpochAI的Frontier Math基準(zhǔn)上創(chuàng)下了新紀(jì)錄,解決了25.2%的問(wèn)題,而其他模型均未超過(guò)2%。
然而,這些說(shuō)法需要謹(jǐn)慎對(duì)待,因?yàn)樗鼈儊?lái)自O(shè)penAI的內(nèi)部評(píng)估。我們需要等待外部客戶(hù)和組織的基準(zhǔn)測(cè)試來(lái)驗(yàn)證該模型在未來(lái)的表現(xiàn)。
自O(shè)penAI發(fā)布首批推理模型以來(lái),包括谷歌在內(nèi)的競(jìng)爭(zhēng)對(duì)手紛紛推出了大量推理模型。例如,由量化交易員資助的AI研究公司DeepSeek發(fā)布了其首款推理模型DeepSeek-R1的預(yù)覽版,而阿里巴巴的Qwen團(tuán)隊(duì)也發(fā)布了據(jù)稱(chēng)是o1的第一個(gè)“公開(kāi)”挑戰(zhàn)者。
推理模型的興起,首先是出于對(duì)改進(jìn)生成式人工智能新方法的追求。然而,并非所有人都認(rèn)為推理模型是最佳的發(fā)展方向。這些模型往往價(jià)格昂貴,需要大量的計(jì)算能力來(lái)運(yùn)行。盡管它們?cè)诨鶞?zhǔn)測(cè)試中表現(xiàn)良好,但尚不清楚推理模型是否能保持這種進(jìn)步速度。
值得注意的是,o3的發(fā)布正值OpenAI最杰出的科學(xué)家之一Alec Radford離職之際。Radford是OpenAI生成式AI模型GPT系列學(xué)術(shù)論文的主要作者,他宣布將離職從事獨(dú)立研究。