Windows、Office直接上手，大模型智慧體操作電腦太6了

機器之心報道

機器之心編輯部

當我們談到 AI 助手的未來，很難不想起《鋼鐵俠》系列中那個令人炫目的 AI 助手賈維斯。賈維斯不僅是託尼・斯塔克的得力助手，更是他與先進科技的溝通者。如今，大模型的出現顛覆了人類使用工具的方式，我們或許離這樣的科幻場景又近了一步。想象一下，如果一個多模態 Agent，能夠直接像人類一樣透過鍵盤和滑鼠直接操控我們身邊的電腦，這將是多麼令人振奮的突破。

AI助手賈維斯

近期，吉林大學人工智慧學院釋出了一項利用視覺大語言模型直接控制電腦 GUI 的最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》，它將這一想象對映進了現實。該工作提出了 ScreenAgent 模型，首次探索在無需輔助定位標籤的情況下，利用 VLM Agent 直接控制電腦滑鼠和鍵盤，實現大模型直接操作電腦的目標。此外，ScreenAgent 透過「計劃-執行-反思」的自動化流程首次實現對 GUI 介面的連續控制。該工作是對人機互動方式的一次探索和革新，同時開源了具備精準定位資訊的資料集、控制器、訓練程式碼等。

論文地址：https://arxiv.org/abs/2402.07945
專案地址：https://github.com/niuzaisheng/ScreenAgent

ScreenAgent 可以幫助使用者輕鬆實現線上娛樂活動，購物，旅行，閱讀等也不在話下。它還可以是最瞭解你的貼心管家，幫助使用者管理個人電腦。甚至無需動手，就幫助使用者實現快速辦公，成為你最得力的辦公助手！話不多說，直接看效果。

帶你網上衝浪，實現娛樂自由

ScreenAgent 根據使用者文字描述上網查詢並播放指定的影片：

系統操作管家，賦予使用者高階技能

讓 ScreenAgent 開啟 Windows 的事件檢視器：

掌握辦公技能，輕鬆玩轉 office

此外，ScreenAgent 可以使用 office 辦公軟體。例如根據使用者文字描述，刪除所開啟的第二頁 PPT：

謀定而後動，知止而有得

對於要完成某一任務，在任務執行前必須要做好規劃活動。ScreenAgent 可以在任務開始前，根據觀測到的影象和使用者需求，進行規劃，例如：

將影片播放速度調至 1.5 倍速：

在 58 同城網站上搜索二手邁騰車的價格：

在命令列裡安裝 xeyes:

視覺定位能力遷移，滑鼠選定無壓力

ScreenAgent 還保留了對於自然事物的視覺定位能力，可以透過滑鼠拖拽的方式繪製出物體的選框：

方法

事實上，要教會 Agent 與使用者圖形介面直接互動並不是一件簡單的事情，需要 Agent 同時具備任務規劃、影象理解、視覺定位、工具使用等多種綜合能力。現有的模型或互動方案都存在一定妥協，例如 LLaVA-1.5 等模型缺乏在大尺寸影象上的精確視覺定位能力；GPT-4V 有非常強的任務規劃、影象理解和 OCR 的能力，但是拒絕給出精確的座標。現有的方案需要在影象上人工標註額外的數字標籤，並讓模型選擇需要點選的 UI 元素，例如 Mobile-Agent、UFO 等專案；此外，CogAgent、Fuyu-8B 等模型可以支援高解析度影象輸入並有精確視覺定位能力，但是 CogAgent 缺乏完整函式呼叫能力，Fuyu-8B 則語言能力欠缺。

為了解決上述問題，文章提出為視覺語言模型智慧體（VLM Agent）構建一個與真實計算機螢幕互動的全新環境。在這個環境中，智慧體可以觀察螢幕截圖，並透過輸出滑鼠和鍵盤操作來操縱圖形使用者介面。為了引導 VLM Agent 與計算機螢幕進行持續的互動，文章構建了一個包含「計劃-執行-反思」的執行流程。在計劃階段，Agent 被要求將使用者任務拆解為子任務。在執行階段，Agent 將觀察螢幕截圖，給出執行子任務的具體滑鼠和鍵盤動作。控制器將執行這些動作，並將執行結果反饋給 Agent。在反思階段，Agent 觀察執行結果，並判定當前的狀態，選擇繼續執行、重試或調整計劃。這一流程持續進行，直到任務完成。值得一提的是，ScreenAgent 無需使用任何文字識別或圖示識別模組，使用端到端的方式訓練模型所有的能力。

ScreenAgent 環境參考了 VNC 遠端桌面連線協議來設計 Agent 的動作空間，包含最基礎的滑鼠和鍵盤操作，滑鼠的點選操作都需要 Agent 給出精確的螢幕座標位置。相比起呼叫特定的 API 來完成任務，這種方式更加通用，可以適用於各種 Windows、Linux Desktop 等桌面作業系統和應用程式。

ScreenAgent 資料集

為了訓練 ScreenAgent 模型，文章人工標註了具備精準視覺定位資訊的 ScreenAgent 資料集。這一資料集涵蓋了豐富的日常計算機任務，包括了 Windows 和 Linux Desktop 環境下的檔案操作、網頁瀏覽、遊戲娛樂等場景。

資料集中每一個樣本都是完成一個任務的完整流程，包含了動作描述、螢幕截圖和具體執行的動作。例如，在亞馬遜網站上「將最便宜的巧克力加入到購物車」的案例，需要先在搜尋框中搜索關鍵詞，再使用過濾器對價格進行排序，最後將最便宜的商品加入購物車。整個資料集包含 273 條完整的任務記錄。

實驗結果

在實驗分析部分作者將 ScreenAgent 與多個現有的 VLM 模型從各個角度進行比較，主要包括兩個層面，指令跟隨能力和細粒度動作預測的正確率。指令跟隨能力主要考驗模型能否正確輸出 JSON 格式的動作序列和動作型別的正確率。而動作屬性預測的正確率則比較每一種動作的屬性值是否預測正確，例如滑鼠點選的位置、鍵盤按鍵等。

指令跟隨

在指令跟隨方面，Agent 的首要任務就是能夠根據提示詞輸出正確的工具函式呼叫，即輸出正確的 JSON 格式，在這方面 ScreenAgent 與 GPT-4V 都能夠很好的遵循指令，而原版的 CogAgent 由於在視覺微調訓練時缺乏 API 呼叫形式的資料的支撐，反而喪失了輸出 JSON 的能力。

動作屬性預測的正確率

從動作屬性的正確率來看，ScreenAgent 也達到了與 GPT-4V 相當的水平。值得注意的是，ScreenAgent 在滑鼠點選的精確度上遠遠超過了現有模型。這表明視覺微調有效增強了模型的精確定位能力。此外，我們還觀察到 ScreenAgent 在任務規劃方面與 GPT-4V 相比存在明顯差距，這凸顯了 GPT-4V 的常識知識和任務規劃能力。

結論

吉林大學人工智慧學院團隊提出的 ScreenAgent 能夠採用與人類一樣的控制方式控制電腦，不依賴於其他的 API 或 OCR 模型，可以廣泛應用於各種軟體和作業系統。ScreenAgent 在「計劃-執行-反思」的流程控制下，可以自主地完成使用者給定的任務。採用這樣的方式，使用者可以看到任務完成的每一步，更好地理解 Agent 的行為想法。

文章開源了控制軟體、模型訓練程式碼、以及資料集。在此基礎上可以探索更多邁向通用人工智慧的前沿工作，例如在環境反饋下的強化學習、Agent 對開放世界的主動探索、構建世界模型、Agent 技能庫等等。

此外，AI Agent 驅動的個人助理具有巨大的社會價值，例如幫助肢體受限的人群使用電腦，減少人類重複的數字勞動以及普及電腦教育等。在未來，或許不是每個人都能成為像鋼鐵俠那樣的超級英雄，但我們都可能擁有一位專屬的賈維斯，一位可以陪伴、輔助和指導我們的智慧夥伴，為我們的生活和工作帶來更多便利與可能。