近日,智譜技術(shù)團(tuán)隊(duì)在官方公眾號(hào)上宣布了一項(xiàng)重大進(jìn)展,正式開源了名為CogAgent-9B-20241220的基座模型。這款模型是基于GLM-4V-9B進(jìn)行訓(xùn)練的,專為智能體(Agent)任務(wù)設(shè)計(jì),具有極高的實(shí)用價(jià)值。
CogAgent-9B-20241220的最大特點(diǎn)是其獨(dú)特的輸入方式。與以往需要HTML等文本表征的模型不同,它僅需屏幕截圖作為輸入,便能根據(jù)用戶指定的任意任務(wù),結(jié)合歷史操作,精準(zhǔn)預(yù)測(cè)下一步的GUI(圖形用戶界面)操作。這一特性使得CogAgent能夠廣泛應(yīng)用于個(gè)人電腦、手機(jī)、車機(jī)設(shè)備等基于GUI交互的各類場(chǎng)景。
相較于去年12月開源的第一版CogAgent模型,新版本在多個(gè)方面實(shí)現(xiàn)了顯著提升。在GUI感知、推理預(yù)測(cè)準(zhǔn)確性、動(dòng)作空間完善性、任務(wù)普適性和泛化性等方面,CogAgent-9B-20241220均展現(xiàn)出了卓越的性能。它還支持中英文雙語的屏幕截圖和語言交互,進(jìn)一步拓寬了其應(yīng)用范圍。
CogAgent的輸入簡(jiǎn)潔明了,僅包含三部分:用戶的自然語言指令、已執(zhí)行的歷史動(dòng)作記錄和GUI截圖。無需任何文本形式表征的布局信息或附加元素標(biāo)簽,這使得模型的輸入處理更加高效和便捷。
CogAgent的輸出則涵蓋了四個(gè)方面,包括思考過程、下一步動(dòng)作的自然語言描述、下一步動(dòng)作的結(jié)構(gòu)化描述以及下一步動(dòng)作的敏感性判斷。其中,思考過程部分顯式輸出了模型理解GUI截圖和決定下一步操作的思考過程,包括狀態(tài)和計(jì)劃兩部分,輸出內(nèi)容可通過參數(shù)進(jìn)行控制。自然語言形式的動(dòng)作描述被加入歷史操作記錄,便于模型理解已執(zhí)行的動(dòng)作步驟。結(jié)構(gòu)化描述則以類似函數(shù)調(diào)用的形式,描述了下一步操作及其參數(shù),便于端側(cè)應(yīng)用解析并執(zhí)行。
在動(dòng)作空間方面,CogAgent包含了GUI操作和擬人行為兩類。GUI操作是基礎(chǔ)動(dòng)作,如左鍵單擊、文本輸入等;而擬人行為則是高級(jí)動(dòng)作,如應(yīng)用啟動(dòng)、調(diào)用語言模型等。模型還對(duì)下一步動(dòng)作的敏感性進(jìn)行了判斷,將動(dòng)作分為“一般操作”和“敏感操作”兩類,后者指可能帶來難以挽回后果的動(dòng)作。
為了驗(yàn)證CogAgent-9B-20241220的性能,智譜技術(shù)團(tuán)隊(duì)在多個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試,并與GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick等模型進(jìn)行了比較。結(jié)果顯示,CogAgent在多個(gè)數(shù)據(jù)集上均取得了領(lǐng)先的結(jié)果,充分證明了其在GUI Agent領(lǐng)域的強(qiáng)大實(shí)力。