美國超微半導體(AMD)宣布,與IBM及AI初創公司Zyphra合作,成功訓練出全球首個完全基於AMD硬件生態的大型混合專家(MoE)模型ZAYA1,標誌 AMD 在高端AI訓練領域邁出重要一步。該模型的完整訓練過程均在IBM 雲端完成,使用AMD Instinct MI300X GPU、Pensando網絡技術及ROCm軟件平台,目前技術報告已於 arXiv 公開。
三方為此建構專用訓練集群,包括128個節點、共1,024 塊MI300X GPU,並透過 InfinityFabric高速連接,實際訓練效能突破750 PFLOPs。Zyphra 同時開發針對 AMD 平台優化的訓練框架,以確保長時間訓練的穩定性與效率。
ZAYA1 在預訓練階段採用14兆(14T)tokens,並以課程式學習策略由低結構數據逐步過渡至高密度的數學、程式與推理資料。基準測試顯示,其綜合性能已接近業界領先的 Qwen3 系列,並優於 SmolLM3、Phi4 等多款主流開源模型;即便未經指令微調,其數學與 STEM 推理能力亦逼近 Qwen3 專業版本。
性能提升部分來自兩項架構創新:新型 CCA 注意力機制大幅降低計算與顯存負擔;改良的 MoE 路由設計則提升模型專業化與表現。Zyphra 表示,ZAYA1 目前仍為預覽版本,後續將發布完整後訓練模型與更詳盡的測試結果。(編輯部)