亚洲天堂在线视频,香港三级日本三级少妇三级,伊人色综合久久天天小片,亚洲中文字幕αv天堂

<rp id="ise62"><optgroup id="ise62"></optgroup></rp>

<small id="ise62"><progress id="ise62"><em id="ise62"></em></progress></small>

<span id="ise62"></span>

<i id="ise62"><del id="ise62"></del></i>

<rp id="ise62"><label id="ise62"></label></rp>

ITBear旗下自媒體矩陣：

滾動資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

OpenAI新推理模型o3亮相：性能飛躍，成本高昂，AGI還遠(yuǎn)嗎？

時間：2024-12-21 14:15:38 來源：ITBEAR編輯：快訊團(tuán)隊(duì) 發(fā)表評論無障礙通道

OpenAI在近期圓滿完成了其為期12天的直播系列，這一連串的活動不僅吸引了大量觀眾的關(guān)注，更讓人們覺得，通用人工智能（AGI）的實(shí)現(xiàn)似乎已不再遙不可及。

就在當(dāng)?shù)貢r間12月20日，人工智能領(lǐng)域的巨頭OpenAI正式揭曉了其最新的推理模型——o3及o3-mini。前一天，OpenAI的首席執(zhí)行官山姆·奧特曼（Sam Altman）已在社交媒體上通過三個“o”的暗示，預(yù)告了o3的到來。

有趣的是，關(guān)于新模型的命名，奧特曼透露了一個有趣的小插曲。他解釋說，為了避免與英國電信運(yùn)營商O2產(chǎn)生名稱上的沖突，他們決定跳過“o2”，直接將其命名為“o3”。他風(fēng)趣地表示：“我們起名字的能力實(shí)在太差，只能這樣做了?！?/p>

o3在多個性能測試中均展現(xiàn)出了令人矚目的提升。在編碼測試SWE-Bench Verified中，o3的性能相比其前代o1提高了22.8%。在Codeforces競技編程比賽中，o3的得分高達(dá)2727分，這一成績已經(jīng)超過了人類選手的平均水平，甚至高于OpenAI的首席科學(xué)家所取得的分?jǐn)?shù)（2655分）。在數(shù)學(xué)競賽AIME 2024和專家級科學(xué)問題基準(zhǔn)測試GPQA Diamond中，o3同樣取得了顯著進(jìn)步。而在FrontierMath這一極具挑戰(zhàn)性的數(shù)學(xué)和推理測試中，o3成功解決了25.2%的問題，而其他模型在這一測試中的表現(xiàn)均未超過2%。

盡管o3和o3-mini尚未正式發(fā)布，但安全研究人員已有機(jī)會注冊獲取o3-mini的預(yù)覽版，而o3的預(yù)覽版也將在未來某個時間點(diǎn)推出，具體日期尚未公布。在直播開始時，奧特曼就強(qiáng)調(diào)，這次并非正式發(fā)布，而是對o3的一次預(yù)告。他透露，計劃在1月底先發(fā)布o(jì)3-mini，隨后再發(fā)布o(jì)3。

有報道稱，AI安全測試人員發(fā)現(xiàn)，與傳統(tǒng)的非推理模型相比，OpenAI此前發(fā)布的o1在試圖欺騙人類用戶方面表現(xiàn)出更高的傾向。同樣，meta、Anthropic和谷歌的領(lǐng)先模型也存在類似的問題。而o3在這一方面的表現(xiàn)可能會更加突出。

為了應(yīng)對這一挑戰(zhàn)，OpenAI在博客中表示，他們正在采用一種名為“慎重對齊”（deliberative alignment）的新技術(shù)，以確保o3等模型符合其安全原則。通過所謂的“私人思維鏈”，o3被訓(xùn)練成在做出反應(yīng)之前先進(jìn)行“思考”。它能夠?qū)θ蝿?wù)進(jìn)行推理并提前規(guī)劃，在較長時間內(nèi)執(zhí)行一系列動作，從而找到解決方案。

在實(shí)際應(yīng)用中，當(dāng)o3收到一個提示時，它會在做出反應(yīng)之前暫停，考慮一些相關(guān)的提示，并沿途“解釋”其推理過程。經(jīng)過一段時間后，模型會總結(jié)出它認(rèn)為最準(zhǔn)確的答案。o3的一個新功能是“調(diào)整”推理時間，用戶可以根據(jù)需要設(shè)置低、中或高計算量（即思考時間），計算時間越長，執(zhí)行任務(wù)時的表現(xiàn)就越好。

Keras之父弗朗索瓦·肖萊（Francois Chollet）在o3發(fā)布后公布了一篇測試報告。報告顯示，在高計算量模式下，o3獲得了87.5%的分?jǐn)?shù)；而在低計算量模式下，其性能是o1的三倍。然而，在成本方面，低計算量模式下每個任務(wù)需要花費(fèi)20美元，而在高計算量模式下每個任務(wù)則需要數(shù)千美元。

肖萊表示：“雖然o3非常昂貴，但它的能力并非僅僅依靠‘蠻干’——這些能力是全新的領(lǐng)域，需要科學(xué)界的認(rèn)真關(guān)注。”他認(rèn)為，雖然o3給人留下了深刻印象，是邁向AGI的一個重要里程碑，但它并不等同于AGI。仍有相當(dāng)多非常簡單的ARC-AGI-1任務(wù)是o3無法解決的，同時也有跡象表明，ARC-AGI-2對o3來說仍極具挑戰(zhàn)性。

肖萊指出，主要需要解決的問題是o3背后技術(shù)的擴(kuò)展瓶頸。如果人類標(biāo)注的CoT數(shù)據(jù)（思維鏈）是一個主要瓶頸，那么o3的能力就會像大模型一樣迅速達(dá)到頂峰（直到下一個架構(gòu)出現(xiàn)）。如果唯一的瓶頸是測試時間搜索（Test-Time Search），那么未來我們將看到持續(xù)的擴(kuò)展。

值得注意的是，近期多家AI公司也紛紛發(fā)布了推理模型。例如，月之暗面（Moonshot AI）推出了新一代數(shù)學(xué)推理模型k0-math，DeepSeek發(fā)布了首個推理模型DeepSeek-R1-Lite預(yù)覽版，阿里云通義團(tuán)隊(duì)發(fā)布了全新AI推理模型QwQ-32B-Preview，而谷歌也發(fā)布了首個推理模型Gemini 2.0 Flash Thinking。

英偉達(dá)的首席執(zhí)行官黃仁勛在10月的一次訪談中表示，他看好推理領(lǐng)域的發(fā)展。他認(rèn)為，現(xiàn)在我們在后訓(xùn)練和推理階段看到了擴(kuò)展，預(yù)訓(xùn)練已不再被視為艱難，推理也變得復(fù)雜。推理方面即將因推理鏈的出現(xiàn)而大幅增長，這將是一場智能生產(chǎn)的革命。

月之暗面Kimi的創(chuàng)始人楊植麟也在11月表示，推理的占比必然會遠(yuǎn)超訓(xùn)練。AI產(chǎn)品和技術(shù)未來的發(fā)展，很重要的一點(diǎn)就是更加深度的推理能力，能夠?qū)F(xiàn)在只是短鏈路的簡單問答，變成更長鏈路的組合式任務(wù)的操作。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

微軟與OpenAI：千億盈利成通用人工智能新標(biāo)尺？

12-27

騰訊邁瑞聯(lián)手發(fā)布“啟元”，打造全球首個重癥醫(yī)療AI大模型！

12-27

榮旗科技全資控股新公司，耀旗科技涉足智能機(jī)器人銷售領(lǐng)域

12-27

平治信息攜手成立新科技公司，涉足人工智能與智能機(jī)器人領(lǐng)域

12-27

SpaceX如何引領(lǐng)太空經(jīng)濟(jì)崛起？未來太空創(chuàng)業(yè)的新趨勢

我擔(dān)心的問題是，如果它發(fā)射失敗且在近地軌道中，或者發(fā)生了衛(wèi)星相撞事件，那么會不會造成很多的太空碎片，如果太空碎片過于密集，以后人類再去發(fā)不管是火箭還是飛行器，它是要沖破這個太空碎片區(qū)的，這個對未來整個航天都會…

12-27

2025食飲營銷新風(fēng)向：短劇、游戲聯(lián)名、AI技術(shù)引領(lǐng)創(chuàng)新潮流

奧利奧品牌最為人稱道的營銷活動之一，當(dāng)屬2013年在超級碗賽事中，當(dāng)比賽場館燈光意外熄滅之際，其第一時間在Twitter 賬號上發(fā)布的“Youcan still dunk in the dark”的推文，…

12-27

工信部力推數(shù)據(jù)要素人才標(biāo)準(zhǔn)，美云智數(shù)助力制造業(yè)數(shù)字化轉(zhuǎn)型

12-27

軟通天樞iSSMeta2024：重塑工業(yè)未來，數(shù)字孿生與仿真技術(shù)引領(lǐng)新型工業(yè)化浪潮

12-27

邁瑞啟元重癥大模型發(fā)布，醫(yī)療AI邁入新時代

12-27

宏杉科技G3系列存儲新品發(fā)布：性能飛躍，助力數(shù)智化轉(zhuǎn)型

12-27

華為與七大伙伴共繪政務(wù)與城市數(shù)智化新藍(lán)圖

12-27

2024科技高光時刻：從月球背面到AI革新，哪些成就照亮未來之路？

12-27

五糧液攜手AI盛會，探索科技與傳統(tǒng)產(chǎn)業(yè)融合新路徑

12-27

聯(lián)想牽手火山引擎，AI桌面助手如意迎來豆包大模型升級

12-27

乘乘集團(tuán)：數(shù)字化領(lǐng)航蛋品產(chǎn)業(yè)，重塑雞蛋供應(yīng)鏈新生態(tài)

12-27

點(diǎn)擊查看更多 +

全站最新

騰勢D9年度改款上市，面對強(qiáng)敵環(huán)伺，能否守住比亞迪MPV市場寵兒地位？

騰勢D9年度改款上市，面對強(qiáng)敵環(huán)伺，能否守住比亞迪MPV市場寵兒地位？

廣州銀行科技金融新篇：煥新服務(wù)體系，賦能區(qū)域產(chǎn)業(yè)轉(zhuǎn)型升級

廣州銀行科技金融新篇：煥新服務(wù)體系，賦能區(qū)域產(chǎn)業(yè)轉(zhuǎn)型升級

早盤市場震蕩反彈，創(chuàng)業(yè)板指領(lǐng)漲，超4400股普漲行情來了？

早盤市場震蕩反彈，創(chuàng)業(yè)板指領(lǐng)漲，超4400股普漲行情來了？

合肥紅星路小學(xué)學(xué)子探索宇宙奧秘，系外行星講座點(diǎn)燃科學(xué)夢

合肥紅星路小學(xué)學(xué)子探索宇宙奧秘，系外行星講座點(diǎn)燃科學(xué)夢

恒坤新材科創(chuàng)板IPO：年?duì)I收近4億，募資12億布局集成電路材料

恒坤新材科創(chuàng)板IPO：年?duì)I收近4億，募資12億布局集成電路材料

新加坡汽車零部件分銷商SAG納斯達(dá)克上市，募資總額達(dá)700萬美元

新加坡汽車零部件分銷商SAG納斯達(dá)克上市，募資總額達(dá)700萬美元

熱門內(nèi)容

本欄最新

騰訊邁瑞聯(lián)手發(fā)布“啟元”，打造全球首個重癥醫(yī)療AI大模型！

騰訊邁瑞聯(lián)手發(fā)布“啟元”，打造全球首個重癥醫(yī)療AI大模型！

榮旗科技全資控股新公司，耀旗科技涉足智能機(jī)器人銷售領(lǐng)域

榮旗科技全資控股新公司，耀旗科技涉足智能機(jī)器人銷售領(lǐng)域

平治信息攜手成立新科技公司，涉足人工智能與智能機(jī)器人領(lǐng)域

平治信息攜手成立新科技公司，涉足人工智能與智能機(jī)器人領(lǐng)域

SpaceX如何引領(lǐng)太空經(jīng)濟(jì)崛起？未來太空創(chuàng)業(yè)的新趨勢

SpaceX如何引領(lǐng)太空經(jīng)濟(jì)崛起？未來太空創(chuàng)業(yè)的新趨勢

工信部力推數(shù)據(jù)要素人才標(biāo)準(zhǔn)，美云智數(shù)助力制造業(yè)數(shù)字化轉(zhuǎn)型

工信部力推數(shù)據(jù)要素人才標(biāo)準(zhǔn)，美云智數(shù)助力制造業(yè)數(shù)字化轉(zhuǎn)型

邁瑞啟元重癥大模型發(fā)布，醫(yī)療AI邁入新時代

邁瑞啟元重癥大模型發(fā)布，醫(yī)療AI邁入新時代

網(wǎng)站首頁 | 關(guān)于我們 | 聯(lián)系方式 | 版權(quán)聲明 | RSS訂閱 | 開放轉(zhuǎn)載 | 滾動資訊 | 爭議稿件處理 | English Version

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) · 齊魯軟件園魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

<label id="qs8xa"><progress id="qs8xa"></progress></label>

<source id="qs8xa"><del id="qs8xa"></del></source>