在DeepSeek-R1發布滿一周年之際,開源社群近日發現DeepSeek疑似正在籌備全新大模型。隨著官方在GitHub更新多項FlashMLA相關程式碼,一個此前未公開的專案代號「MODEL1」頻繁出現在文件中,引發外界高度關注。
《第一財經》報道指出,在最新程式碼中,MODEL1與現有模型標識V32(即 DeepSeek-V3.2)並列出現。從上下文判斷,MODEL1很可能代表一套不同於現有V3 架構的新模型。不過,該模型究竟是傳聞中的V4版本、下一代推理模型R2,還是V3系列的最終強化版,社群看法仍不一致。
FlashMLA是DeepSeek自主研發、針對 NVIDIA Hopper 架構 GPU 深度優化的核心軟體工具,被視為其實現低成本、高效能訓練與推理的關鍵。該工具可在模型架構層面降低記憶體佔用,最大化 GPU 硬體效能。
開發者分析指出,MODEL1 在多項底層設計上與 V32 存在明顯差異,包括鍵值(KV)緩存布局、稀疏性處理方式,以及對 FP8 資料格式的解碼支援等,顯示新模型可能在記憶體優化與計算效率方面進行了針對性重構。
從專案文件結構來看,MODEL1或已接近訓練完成或推理部署階段,僅待最終權重凍結與測試驗證。(編輯部)