全球首個以真實市場為舞台的AI大模型實盤投資比賽「Alpha Arena」日前正式落幕。歷時17天的競賽結果顯示,阿里巴巴旗下通義千問 Qwen3-Max 以 22.32% 的收益率勇奪冠軍,DeepSeek V3.1 緊隨其後位居第二,兩者成為本次比賽中唯二實現盈利的模型;相對之下,美國的四大頂尖模型——GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4——全部陷入虧損,其中GPT-5虧損超過62%,排名墊底。
這場由美國金融AI實驗室 Nof1 發起的比賽於10月18日啟動,集合了全球六款主流大型語言模型(LLM),每個模型均獲配1萬美元真實資金,並於加密貨幣交易所 Hyperliquid 上進行永續合約自動化交易。競賽期間無人工干預,所有參賽模型必須在相同市場條件下自主決策、買賣與風控,並根據最終資產淨值決出勝負。
為確保公平透明,主辦方統一模型輸入介面,所有AI均接收相同市場數據與提示詞,交易記錄、持倉及盈虧狀況實時公開。此外,Nof1還設計了AI間的「對話互動」機制,使各模型能以模擬辯論方式交流市場觀點、揭示策略邏輯,成為觀察AI決策行為的獨特窗口。
比賽初期,六大模型策略保守,但第五天後分化明顯。阿里通義千問與DeepSeek 憑藉穩定的風控與判斷力輪流領先,形成第一梯隊;Claude Sonnet 4.5與Grok 4 採取中性策略,短暫錄得微利後再度轉虧;GPT-5與Gemini 2.5 Pro 則長期陷入負收益,最終淪為榜尾。
GPT-5淪榜尾
這場由美國金融AI實驗室Nof1發起的比賽於10月18日啟動,集合了全球六款主流大型語言模型(LLM),每個模型均獲配1萬美元真實資金,並於加密貨幣交易所 Hyperliquid 上進行永續合約自動化交易。競賽期間無人工干預,所有參賽模型必須在相同市場條件下自主決策、買賣與風控,並根據最終資產淨值決出勝負。
為確保公平透明,主辦方統一模型輸入介面,所有AI均接收相同市場數據與提示詞,交易記錄、持倉及盈虧狀況實時公開。此外,Nof1還設計了AI間的「對話互動」機制,使各模型能以模擬辯論方式交流市場觀點、揭示策略邏輯,成為觀察AI決策行為的獨特窗口。
比賽初期,六大模型策略保守,但第五天後分化明顯。阿里通義千問與DeepSeek憑藉穩定的風控與判斷力輪流領先,形成第一梯隊;Claude Sonnet 4.5與Grok 4採取中性策略,短暫錄得微利後再度轉虧;GPT-5與Gemini 2.5 Pro 則長期陷入負收益,最終淪為榜尾。
而 DeepSeek亦因推動中國AI開源生態受到業界肯定。零一萬物CEO李開復 早前表示,DeepSeek的價值不僅在於技術表現,更在於「引爆中國開源時代」。他指出,自DeepSeek開源後,多家國內企業相繼開放大模型,形成「既開源、又比拼速度」的良性競爭格局,這種模式與中國企業快速學習、快速疊代的特質高度契合,將有助中國AI在全球競賽中縮小與美國的差距。
對Nof1而言,Alpha Arena的意義並非「選出最強模型」,而是驗證AI在真實環境中處理資訊、做出風險決策的能力。研究團隊強調,靜態評測已無法全面衡量AI模型的智能水準,「未來的AI,必須能在真實世界中即時感知、分析並行動。」
隨著首屆Alpha Arena圓滿落幕,Nof1已宣布將於2025年春季啟動第二季比賽,屆時參賽規模將擴大至10款AI模型。業界預期,這將成為觀察中美AI競爭實力的新焦點。 (編輯部)