智譜技術團隊公眾號昨日(12 月 26 日)發布博文,宣布開源 GLM-PC 的基座模型 CogAgent-9B-20241220,基于 GLM-4V-9B 訓練,專用于智能體(Agent)任務。
注:該模型僅需屏幕截圖作為輸入(無需 HTML 等文本表征),便能根據用戶指定的任意任務,結合歷史操作,預測下一步的 GUI 操作。
得益于屏幕截圖和 GUI 操作的普適性,CogAgent 可廣泛應用于各類基于 GUI 交互的場景,如個人電腦、手機、車機設備等。
相較于 2023 年 12 月開源的第一版 CogAgent 模型,CogAgent-9B-20241220 在 GUI 感知、推理預測準確性、動作空間完善性、任務普適性和泛化性等方面均實現了顯著提升,并支持中英文雙語的屏幕截圖和語言交互。
CogAgent 的輸入僅包含三部分:用戶的自然語言指令、已執行歷史動作記錄和 GUI 截圖,無需任何文本形式表征的布局信息或附加元素標簽(set of marks)信息。
其輸出涵蓋以下四個方面:
思考過程(Status &Plan): CogAgent 顯式輸出理解 GUI 截圖和決定下一步操作的思考過程,包括狀態(Status)和計劃(Plan)兩部分,輸出內容可通過參數控制。
下一步動作的自然語言描述(Action):自然語言形式的動作描述將被加入歷史操作記錄,便于模型理解已執行的動作步驟。
下一步動作的結構化描述(Grounded Operation): CogAgent 以類似函數調用的形式,結構化地描述下一步操作及其參數,便于端側應用解析并執行模型輸出。其動作空間包含 GUI 操作(基礎動作,如左鍵單擊、文本輸入等)和擬人行為(高級動作,如應用啟動、調用語言模型等)兩類。
下一步動作的敏感性判斷:動作分為“一般操作”和“敏感操作”兩類,后者指可能帶來難以挽回后果的動作,例如在“發送郵件”任務中點擊“發送”按鈕。
CogAgent-9B-20241220 在 Screenspot、OmniAct、CogAgentBench-basic-cn 和 OSWorld 等數據集上進行了測試,并與 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型進行了比較。
結果顯示,CogAgent 在多個數據集上取得了領先的結果,證明了其在 GUI Agent 領域強大的性能。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。