微軟開源Webwright框架 AI可自行編寫瀏覽器操作程式

微軟開源Webwright框架

AI可自行編寫瀏覽器操作程式

27/05/2026

32260

微軟研究院本月發布開源網頁智能體框架「Webwright」，透過讓AI模型直接在終端機編寫Playwright程式碼、執行bash指令、檢查日誌與自動修正腳本，進一步提升AI處理複雜網頁任務的能力。相關技術被視為AI Agent（智能體）發展的重要方向之一。

根據IT之家援引微軟官方博客介紹，傳統網頁智能體多採用「截圖或DOM狀態 → 預測下一步點擊、輸入或滾動」的方式運作，本質上仍屬逐步執行低階操作。但Webwright則改變這種模式，讓模型直接像工程師般，在終端環境撰寫Playwright自動化腳本，再透過執行shell命令、查看錯誤訊息、讀取日誌與截圖等方式，反覆修改與優化程式。

Playwright是目前常見的瀏覽器自動化工具之一，可用於控制Chrome、Edge與Firefox等瀏覽器執行點擊、登入、填表與跨頁操作等任務。

微軟表示，Webwright架構相當精簡，主要由Runner、Model Endpoint與終端環境三大核心組件構成。其中Runner約150行程式碼、模型接口約550行、環境部分約300行，整體僅約1000行程式碼。相較部分複雜AI Agent系統需要多智能體協作與分層規劃，Webwright刻意維持輕量化設計。

在執行流程方面，Runner會先把目前任務上下文發送給模型，模型再回傳思考內容與shell命令。系統執行後，會將終端輸出、錯誤堆疊、日誌與截圖重新回傳給模型，讓AI持續修正腳本並進入下一輪循環。

微軟認為，相較一次只預測單一步驟的低階控制模式，以程式碼驅動的方式，更適合處理多步驟網頁任務，例如完整填寫表單、跨頁重複操作、日期選擇與批量處理等，同時也能利用函數、循環與抽象化能力提升複用效率。

團隊亦特別處理兩項常見工程問題。首先是AI過早判定「任務已完成」。微軟指出，模型有時會在工作尚未真正結束前就宣稱成功，因此Webwright加入額外門控機制，要求模型先生成自我檢查配置，再於全新資料夾重新執行最終腳本，並透過日誌、截圖與自我反思確認結果後，才能正式輸出完成標記。

另一個問題則是上下文膨脹。由於長時間執行任務容易產生龐大操作歷史，進而超出模型上下文限制，因此系統每20步便會自動壓縮歷史紀錄，生成摘要以減少上下文負擔。

在基準測試方面，Webwright在Online-Mind2Web與Odysseys兩項測試中均取得不錯成績。其中Online-Mind2Web涵蓋136個常用網站、共300項任務，搭配GPT-5.4模型後，整體準確率達86.67%，在100步預算限制下位列公開測試配方前列。

另一項Odysseys測試則聚焦跨網站長鏈路瀏覽任務，平均指令長度達272.3個詞。2026年4月排行榜中，最佳模型Opus 4.6得分為44.5%，而Webwright結合GPT-5.4後達到60.1%，較此前最佳結果提升35.1%，亦較基礎版GPT-5.4的33.5%高出26.6個百分點，提升幅度達81.49%。（編輯部）

AI可自行編寫瀏覽器操作程式