亚洲天堂在线视频,香港三级日本三级少妇三级,伊人色综合久久天天小片,亚洲中文字幕αv天堂

      ITBear旗下自媒體矩陣:

      智譜技術(shù)開源CogAgent-9B模型,賦能AI智能體精準(zhǔn)“解讀”GUI界面

         時(shí)間:2024-12-27 09:18:47 來源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無障礙通道

      近日,智譜技術(shù)團(tuán)隊(duì)在官方公眾號(hào)上宣布了一項(xiàng)重大進(jìn)展,正式開源了名為CogAgent-9B-20241220的基座模型。這款模型是基于GLM-4V-9B進(jìn)行訓(xùn)練的,專為智能體(Agent)任務(wù)設(shè)計(jì),具有極高的實(shí)用價(jià)值。

      CogAgent-9B-20241220的最大特點(diǎn)是其獨(dú)特的輸入方式。與以往需要HTML等文本表征的模型不同,它僅需屏幕截圖作為輸入,便能根據(jù)用戶指定的任意任務(wù),結(jié)合歷史操作,精準(zhǔn)預(yù)測(cè)下一步的GUI(圖形用戶界面)操作。這一特性使得CogAgent能夠廣泛應(yīng)用于個(gè)人電腦、手機(jī)、車機(jī)設(shè)備等基于GUI交互的各類場(chǎng)景。

      相較于去年12月開源的第一版CogAgent模型,新版本在多個(gè)方面實(shí)現(xiàn)了顯著提升。在GUI感知、推理預(yù)測(cè)準(zhǔn)確性、動(dòng)作空間完善性、任務(wù)普適性和泛化性等方面,CogAgent-9B-20241220均展現(xiàn)出了卓越的性能。它還支持中英文雙語的屏幕截圖和語言交互,進(jìn)一步拓寬了其應(yīng)用范圍。

      CogAgent的輸入簡(jiǎn)潔明了,僅包含三部分:用戶的自然語言指令、已執(zhí)行的歷史動(dòng)作記錄和GUI截圖。無需任何文本形式表征的布局信息或附加元素標(biāo)簽,這使得模型的輸入處理更加高效和便捷。

      CogAgent的輸出則涵蓋了四個(gè)方面,包括思考過程、下一步動(dòng)作的自然語言描述、下一步動(dòng)作的結(jié)構(gòu)化描述以及下一步動(dòng)作的敏感性判斷。其中,思考過程部分顯式輸出了模型理解GUI截圖和決定下一步操作的思考過程,包括狀態(tài)和計(jì)劃兩部分,輸出內(nèi)容可通過參數(shù)進(jìn)行控制。自然語言形式的動(dòng)作描述被加入歷史操作記錄,便于模型理解已執(zhí)行的動(dòng)作步驟。結(jié)構(gòu)化描述則以類似函數(shù)調(diào)用的形式,描述了下一步操作及其參數(shù),便于端側(cè)應(yīng)用解析并執(zhí)行。

      在動(dòng)作空間方面,CogAgent包含了GUI操作和擬人行為兩類。GUI操作是基礎(chǔ)動(dòng)作,如左鍵單擊、文本輸入等;而擬人行為則是高級(jí)動(dòng)作,如應(yīng)用啟動(dòng)、調(diào)用語言模型等。模型還對(duì)下一步動(dòng)作的敏感性進(jìn)行了判斷,將動(dòng)作分為“一般操作”和“敏感操作”兩類,后者指可能帶來難以挽回后果的動(dòng)作。

      為了驗(yàn)證CogAgent-9B-20241220的性能,智譜技術(shù)團(tuán)隊(duì)在多個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試,并與GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick等模型進(jìn)行了比較。結(jié)果顯示,CogAgent在多個(gè)數(shù)據(jù)集上均取得了領(lǐng)先的結(jié)果,充分證明了其在GUI Agent領(lǐng)域的強(qiáng)大實(shí)力。

      舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
       
       
      更多>同類資訊
      全站最新
      熱門內(nèi)容
      網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version