滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 數(shù)字家電 > 正文內(nèi)容

智譜技術(shù)開源CogAgent-9B模型，賦能AI智能體精準(zhǔn)“解讀”GUI界面

時(shí)間：2024-12-27 09:18:47 來源：ITBEAR編輯：快訊團(tuán)隊(duì) 發(fā)表評(píng)論無障礙通道

近日，智譜技術(shù)團(tuán)隊(duì)在官方公眾號(hào)上宣布了一項(xiàng)重大進(jìn)展，正式開源了名為CogAgent-9B-20241220的基座模型。這款模型是基于GLM-4V-9B進(jìn)行訓(xùn)練的，專為智能體（Agent）任務(wù)設(shè)計(jì)，具有極高的實(shí)用價(jià)值。

CogAgent-9B-20241220的最大特點(diǎn)是其獨(dú)特的輸入方式。與以往需要HTML等文本表征的模型不同，它僅需屏幕截圖作為輸入，便能根據(jù)用戶指定的任意任務(wù)，結(jié)合歷史操作，精準(zhǔn)預(yù)測(cè)下一步的GUI（圖形用戶界面）操作。這一特性使得CogAgent能夠廣泛應(yīng)用于個(gè)人電腦、手機(jī)、車機(jī)設(shè)備等基于GUI交互的各類場(chǎng)景。

相較于去年12月開源的第一版CogAgent模型，新版本在多個(gè)方面實(shí)現(xiàn)了顯著提升。在GUI感知、推理預(yù)測(cè)準(zhǔn)確性、動(dòng)作空間完善性、任務(wù)普適性和泛化性等方面，CogAgent-9B-20241220均展現(xiàn)出了卓越的性能。它還支持中英文雙語的屏幕截圖和語言交互，進(jìn)一步拓寬了其應(yīng)用范圍。

CogAgent的輸入簡(jiǎn)潔明了，僅包含三部分：用戶的自然語言指令、已執(zhí)行的歷史動(dòng)作記錄和GUI截圖。無需任何文本形式表征的布局信息或附加元素標(biāo)簽，這使得模型的輸入處理更加高效和便捷。

CogAgent的輸出則涵蓋了四個(gè)方面，包括思考過程、下一步動(dòng)作的自然語言描述、下一步動(dòng)作的結(jié)構(gòu)化描述以及下一步動(dòng)作的敏感性判斷。其中，思考過程部分顯式輸出了模型理解GUI截圖和決定下一步操作的思考過程，包括狀態(tài)和計(jì)劃兩部分，輸出內(nèi)容可通過參數(shù)進(jìn)行控制。自然語言形式的動(dòng)作描述被加入歷史操作記錄，便于模型理解已執(zhí)行的動(dòng)作步驟。結(jié)構(gòu)化描述則以類似函數(shù)調(diào)用的形式，描述了下一步操作及其參數(shù)，便于端側(cè)應(yīng)用解析并執(zhí)行。

在動(dòng)作空間方面，CogAgent包含了GUI操作和擬人行為兩類。GUI操作是基礎(chǔ)動(dòng)作，如左鍵單擊、文本輸入等；而擬人行為則是高級(jí)動(dòng)作，如應(yīng)用啟動(dòng)、調(diào)用語言模型等。模型還對(duì)下一步動(dòng)作的敏感性進(jìn)行了判斷，將動(dòng)作分為“一般操作”和“敏感操作”兩類，后者指可能帶來難以挽回后果的動(dòng)作。

為了驗(yàn)證CogAgent-9B-20241220的性能，智譜技術(shù)團(tuán)隊(duì)在多個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試，并與GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick等模型進(jìn)行了比較。結(jié)果顯示，CogAgent在多個(gè)數(shù)據(jù)集上均取得了領(lǐng)先的結(jié)果，充分證明了其在GUI Agent領(lǐng)域的強(qiáng)大實(shí)力。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0

12-27

董明珠揭秘：格力為何高價(jià)？十年包修承諾與拒絕鋁代銅的堅(jiān)守

12-27

小米120W GaN四口充電器上市，249元滿足全家充電需求！

12-27

華為萬元級(jí)平板新爆料：折疊屏+PC功能，搭載HarmonyOS NEXT？

12-27

京東京造JZ990 V2鍵盤特惠，280元享Gasket Pro熱插拔設(shè)計(jì)超值體驗(yàn)

12-27

《黑神話：悟空》PS5版重大更新，PSSR技術(shù)加持畫面再升級(jí)！

12-27

多元資訊：高德否認(rèn)派單限性別，失事航班機(jī)長(zhǎng)英勇，寵物殯葬價(jià)格飆升

12-27

英特爾Beta版驅(qū)動(dòng)更新：Arc顯卡及酷睿Ultra 2系列問題修復(fù)來襲

12-27

聯(lián)想CES 2025大動(dòng)作：人工智能旅行套裝及太陽能自充電鍵盤來襲

12-27

格力再添新商標(biāo)“格力好強(qiáng)”，董明珠力挺品質(zhì)：不用格力是傻瓜？

12-27

《威爾：航向燈塔》——北歐冒險(xiǎn)之旅，探尋親情之謎！

12-27

華為MatePad Pro系列平板新進(jìn)展：通過OpenHarmony 5.0.1認(rèn)證

12-27

雷神CES 2025首秀：新筆記本將搭“顏值爆表”RGB散熱系統(tǒng)？

12-27

聯(lián)想CES 2025大秀在即，ThinkBook Plus卷軸屏筆記本將亮相，能否顛覆認(rèn)知？

12-27

一加平板震撼登場(chǎng)：144Hz全面屏+天璣8350，起售價(jià)僅1999元！

12-26

點(diǎn)擊查看更多 +

全站最新

比亞迪秦PLUS EV榮耀版&宋Pro DM-i限時(shí)優(yōu)惠，起售價(jià)低至9.98萬元！

博帝Patriot亮相CES 2025，40周年紀(jì)念版內(nèi)存及多款新品搶先看

聯(lián)想天禧AS智能體系統(tǒng)升級(jí)，2025年Q2將亮相AI PC等終端

2025款騰勢(shì)D9煥新上市，舒適性配置升級(jí)，標(biāo)配高階智駕系統(tǒng)

微軟OpenAI設(shè)千億盈利門檻，通用人工智能實(shí)現(xiàn)后或“分手”？

本田CES展大放異彩，0系列電動(dòng)車開啟純電新篇章！

熱門內(nèi)容

本欄最新

董明珠揭秘：格力為何高價(jià)？十年包修承諾與拒絕鋁代銅的堅(jiān)守

小米120W GaN四口充電器上市，249元滿足全家充電需求！

華為萬元級(jí)平板新爆料：折疊屏+PC功能，搭載HarmonyOS NEXT？

京東京造JZ990 V2鍵盤特惠，280元享Gasket Pro熱插拔設(shè)計(jì)超值體驗(yàn)

《黑神話：悟空》PS5版重大更新，PSSR技術(shù)加持畫面再升級(jí)！

英特爾Beta版驅(qū)動(dòng)更新：Arc顯卡及酷睿Ultra 2系列問題修復(fù)來襲

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) · 齊魯軟件園魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

亚洲天堂在线视频,香港三级日本三级少妇三级,伊人色综合久久天天小片,亚洲中文字幕αv天堂

智譜技術(shù)開源CogAgent-9B模型，賦能AI智能體精準(zhǔn)“解讀”GUI界面