科技媒體 MarkTechPost 於5月27日報導,微軟研究院聯合清華大學與北京大學,推出新型「獎勵推理模型」(Reward Reasoning Models,簡稱RRMs),透過顯式推理過程自適應分配計算資源,顯著提升人工智能在複雜任務中的評估能力。
傳統強化學習(RL)透過人類回饋(RLHF)或可驗證獎勵(RLVR)提供訓練信號,但RLVR受限於答案可驗證性,難以廣泛應用於通用大模型訓練。此外,現有標量與生成型獎勵模型難以靈活調配計算資源,導致複雜查詢評估效果欠佳。
針對此一瓶頸,研究團隊開發RRMs模型,在預測最終獎勵前引入「思維鏈」(Chain-of-Thought)推理,根據任務難度調整推理深度與資源投入。RRMs 採用 Qwen2 架構,將獎勵建模轉化為文字生成任務,於推理過程後產出最終判斷。
測試顯示,RRMs 在 RewardBench 及 PandaLM Test 基準中表現卓越,RRM-32B 在推理類別達98.6%準確率,優於DirectJudge等同級模型。其在多響應評估與最佳N推理中亦展現優勢,證明模型規模擴展與推理時間提升有助準確性,為標量獎勵模型提供強大替代方案。(編輯部)