全球首個AI投資賽 通義千問奪冠

美國四大模型全數虧損
05/11/2025
4210
收藏
分享
美國四大模型全數虧損

全球首個以真實市場為舞台的AI大模型實盤投資比賽「Alpha Arena」日前正式落幕。歷時17天的競賽結果顯示,阿里巴巴旗下通義千問 Qwen3-Max 以 22.32% 的收益率勇奪冠軍,DeepSeek V3.1 緊隨其後位居第二,兩者成為本次比賽中唯二實現盈利的模型;相對之下,美國的四大頂尖模型——GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4——全部陷入虧損,其中GPT-5虧損超過62%,排名墊底。

這場由美國金融AI實驗室 Nof1 發起的比賽於10月18日啟動,集合了全球六款主流大型語言模型(LLM),每個模型均獲配1萬美元真實資金,並於加密貨幣交易所 Hyperliquid 上進行永續合約自動化交易。競賽期間無人工干預,所有參賽模型必須在相同市場條件下自主決策、買賣與風控,並根據最終資產淨值決出勝負。

為確保公平透明,主辦方統一模型輸入介面,所有AI均接收相同市場數據與提示詞,交易記錄、持倉及盈虧狀況實時公開。此外,Nof1還設計了AI間的「對話互動」機制,使各模型能以模擬辯論方式交流市場觀點、揭示策略邏輯,成為觀察AI決策行為的獨特窗口。

比賽初期,六大模型策略保守,但第五天後分化明顯。阿里通義千問與DeepSeek 憑藉穩定的風控與判斷力輪流領先,形成第一梯隊;Claude Sonnet 4.5與Grok 4 採取中性策略,短暫錄得微利後再度轉虧;GPT-5與Gemini 2.5 Pro 則長期陷入負收益,最終淪為榜尾。

GPT-5淪榜尾

這場由美國金融AI實驗室Nof1發起的比賽於10月18日啟動,集合了全球六款主流大型語言模型(LLM),每個模型均獲配1萬美元真實資金,並於加密貨幣交易所 Hyperliquid 上進行永續合約自動化交易。競賽期間無人工干預,所有參賽模型必須在相同市場條件下自主決策、買賣與風控,並根據最終資產淨值決出勝負。

為確保公平透明,主辦方統一模型輸入介面,所有AI均接收相同市場數據與提示詞,交易記錄、持倉及盈虧狀況實時公開。此外,Nof1還設計了AI間的「對話互動」機制,使各模型能以模擬辯論方式交流市場觀點、揭示策略邏輯,成為觀察AI決策行為的獨特窗口。

比賽初期,六大模型策略保守,但第五天後分化明顯。阿里通義千問與DeepSeek憑藉穩定的風控與判斷力輪流領先,形成第一梯隊;Claude Sonnet 4.5與Grok 4採取中性策略,短暫錄得微利後再度轉虧;GPT-5與Gemini 2.5 Pro 則長期陷入負收益,最終淪為榜尾。

而 DeepSeek亦因推動中國AI開源生態受到業界肯定。零一萬物CEO李開復 早前表示,DeepSeek的價值不僅在於技術表現,更在於「引爆中國開源時代」。他指出,自DeepSeek開源後,多家國內企業相繼開放大模型,形成「既開源、又比拼速度」的良性競爭格局,這種模式與中國企業快速學習、快速疊代的特質高度契合,將有助中國AI在全球競賽中縮小與美國的差距。

對Nof1而言,Alpha Arena的意義並非「選出最強模型」,而是驗證AI在真實環境中處理資訊、做出風險決策的能力。研究團隊強調,靜態評測已無法全面衡量AI模型的智能水準,「未來的AI,必須能在真實世界中即時感知、分析並行動。」

隨著首屆Alpha Arena圓滿落幕,Nof1已宣布將於2025年春季啟動第二季比賽,屆時參賽規模將擴大至10款AI模型。業界預期,這將成為觀察中美AI競爭實力的新焦點。 (編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報