DeepSeek開源程式碼曝光

「MODEL1」 新一代大模型浮出水面
22/01/2026
3953
收藏
分享
「MODEL1」 新一代大模型浮出水面

在DeepSeek-R1發布滿一周年之際,開源社群近日發現DeepSeek疑似正在籌備全新大模型。隨著官方在GitHub更新多項FlashMLA相關程式碼,一個此前未公開的專案代號「MODEL1」頻繁出現在文件中,引發外界高度關注。

《第一財經》報道指出,在最新程式碼中,MODEL1與現有模型標識V32(即 DeepSeek-V3.2)並列出現。從上下文判斷,MODEL1很可能代表一套不同於現有V3 架構的新模型。不過,該模型究竟是傳聞中的V4版本、下一代推理模型R2,還是V3系列的最終強化版,社群看法仍不一致。

FlashMLA是DeepSeek自主研發、針對 NVIDIA Hopper 架構 GPU 深度優化的核心軟體工具,被視為其實現低成本、高效能訓練與推理的關鍵。該工具可在模型架構層面降低記憶體佔用,最大化 GPU 硬體效能。

開發者分析指出,MODEL1 在多項底層設計上與 V32 存在明顯差異,包括鍵值(KV)緩存布局、稀疏性處理方式,以及對 FP8 資料格式的解碼支援等,顯示新模型可能在記憶體優化與計算效率方面進行了針對性重構。

從專案文件結構來看,MODEL1或已接近訓練完成或推理部署階段,僅待最終權重凍結與測試驗證。(編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報