微軟開源Webwright框架

AI可自行編寫瀏覽器操作程式
27/05/2026
2195
收藏
分享
AI可自行編寫瀏覽器操作程式

微軟研究院本月發布開源網頁智能體框架「Webwright」,透過讓AI模型直接在終端機編寫Playwright程式碼、執行bash指令、檢查日誌與自動修正腳本,進一步提升AI處理複雜網頁任務的能力。相關技術被視為AI Agent(智能體)發展的重要方向之一。

根據IT之家援引微軟官方博客介紹,傳統網頁智能體多採用「截圖或DOM狀態 → 預測下一步點擊、輸入或滾動」的方式運作,本質上仍屬逐步執行低階操作。但Webwright則改變這種模式,讓模型直接像工程師般,在終端環境撰寫Playwright自動化腳本,再透過執行shell命令、查看錯誤訊息、讀取日誌與截圖等方式,反覆修改與優化程式。

Playwright是目前常見的瀏覽器自動化工具之一,可用於控制Chrome、Edge與Firefox等瀏覽器執行點擊、登入、填表與跨頁操作等任務。

微軟表示,Webwright架構相當精簡,主要由Runner、Model Endpoint與終端環境三大核心組件構成。其中Runner約150行程式碼、模型接口約550行、環境部分約300行,整體僅約1000行程式碼。相較部分複雜AI Agent系統需要多智能體協作與分層規劃,Webwright刻意維持輕量化設計。

在執行流程方面,Runner會先把目前任務上下文發送給模型,模型再回傳思考內容與shell命令。系統執行後,會將終端輸出、錯誤堆疊、日誌與截圖重新回傳給模型,讓AI持續修正腳本並進入下一輪循環。

微軟認為,相較一次只預測單一步驟的低階控制模式,以程式碼驅動的方式,更適合處理多步驟網頁任務,例如完整填寫表單、跨頁重複操作、日期選擇與批量處理等,同時也能利用函數、循環與抽象化能力提升複用效率。

團隊亦特別處理兩項常見工程問題。首先是AI過早判定「任務已完成」。微軟指出,模型有時會在工作尚未真正結束前就宣稱成功,因此Webwright加入額外門控機制,要求模型先生成自我檢查配置,再於全新資料夾重新執行最終腳本,並透過日誌、截圖與自我反思確認結果後,才能正式輸出完成標記。

另一個問題則是上下文膨脹。由於長時間執行任務容易產生龐大操作歷史,進而超出模型上下文限制,因此系統每20步便會自動壓縮歷史紀錄,生成摘要以減少上下文負擔。

在基準測試方面,Webwright在Online-Mind2Web與Odysseys兩項測試中均取得不錯成績。其中Online-Mind2Web涵蓋136個常用網站、共300項任務,搭配GPT-5.4模型後,整體準確率達86.67%,在100步預算限制下位列公開測試配方前列。

另一項Odysseys測試則聚焦跨網站長鏈路瀏覽任務,平均指令長度達272.3個詞。2026年4月排行榜中,最佳模型Opus 4.6得分為44.5%,而Webwright結合GPT-5.4後達到60.1%,較此前最佳結果提升35.1%,亦較基礎版GPT-5.4的33.5%高出26.6個百分點,提升幅度達81.49%。(編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報