微軟研究揭AI「越聊越不可靠」

主流大模型多輪對話成功率跌至65%
22/02/2026
2679
收藏
分享
主流大模型多輪對話成功率跌至65%

不少用戶都有這樣的體驗:與AI聊天機器人對話愈久,回答反而愈來愈混亂。如今,這種直覺感受獲得科學驗證。根據微軟研究院與 Salesforce 共同發布的最新研究,即使是當前最先進的大語言模型,在多輪對話場景中的可靠性也會明顯下滑。

研究團隊針對包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 與 Llama 4 在內的15款主流模型,進行超過20萬次模擬對話測試,發現一種被稱為「迷失會話(lost in conversation)」的系統性缺陷。

數據顯示,這些模型在單次提示(single-turn)任務中的成功率可達約90%;但當相同任務被拆解為多輪自然對話後,成功率便急降至約65%。研究指出,模型本身的核心能力僅下降約15%,真正大幅上升的是「不可靠性」,增幅高達112%。換言之,AI並非突然變笨,而是在長對話中變得高度不穩定,難以持續掌握上下文。

研究同時點出,現行AI評測體系存在結構性盲點。多數基準測試仍建立在「一次性給齊指令」的理想單輪場景,但現實中的人機互動往往是漸進式的,資訊需在多回合中逐步補充。一旦任務被拆散至多輪交流,即便是頂級模型,也更容易出現系統性錯誤。

研究人員進一步分析導致性能衰退的關鍵機制。首先是「過早生成(premature answering)」。模型常在用戶尚未完整說明需求前,就急於給出結論;若在初期形成錯誤假設,後續推理便會沿著錯誤方向累積,而非隨新資訊修正判斷,最終放大偏差。

第二個問題是「答案膨脹」。在多輪對話中,模型回覆長度平均增加20%至300%。更冗長的回答往往伴隨更多假設與「幻覺內容」,這些資訊又會被納入後續上下文,進一步干擾模型判斷,形成惡性循環。

令人意外的是,即使是加入額外「思考詞元(thinking tokens)」的新一代推理模型,例如 OpenAI 的 o3 及 DeepSeek R1,也未能顯著改善多輪對話表現。研究亦指出,將模型溫度參數設為0(常用於提升一致性)幾乎無法防止這類對話衰減現象。

這項發現對AI產業的評估方式帶來衝擊。研究團隊指出,若持續以單輪測試作為主要指標,將嚴重低估模型在真實應用場景中的失誤風險。對於正在開發智能代理(AI agents)或複雜對話流程的企業而言,這意味著系統穩定性仍面臨實質挑戰。

目前看來,最實際的應對策略反而是「減少來回對話」,盡可能在單一完整提示中一次性提供所有必要資訊、條件與指令,以提升輸出一致性。研究人員強調,這並非長久解方,而是現階段在模型尚未克服「迷失會話」問題前,較為務實的工程取捨。

隨著AI逐步進入客服、自動化流程與決策輔助等核心應用場景,如何讓模型在長對話中維持穩定推理能力,已成為下一階段競賽的關鍵門檻,也將決定生成式AI能否真正走向大規模商用落地。 (編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報