DeepSeek開源程式碼曝光「MODEL1」新一代大模型浮出水面

DeepSeek開源程式碼曝光

「MODEL1」新一代大模型浮出水面

22/01/2026

40133

在DeepSeek-R1發布滿一周年之際，開源社群近日發現DeepSeek疑似正在籌備全新大模型。隨著官方在GitHub更新多項FlashMLA相關程式碼，一個此前未公開的專案代號「MODEL1」頻繁出現在文件中，引發外界高度關注。

《第一財經》報道指出，在最新程式碼中，MODEL1與現有模型標識V32（即 DeepSeek-V3.2）並列出現。從上下文判斷，MODEL1很可能代表一套不同於現有V3 架構的新模型。不過，該模型究竟是傳聞中的V4版本、下一代推理模型R2，還是V3系列的最終強化版，社群看法仍不一致。

FlashMLA是DeepSeek自主研發、針對 NVIDIA Hopper 架構 GPU 深度優化的核心軟體工具，被視為其實現低成本、高效能訓練與推理的關鍵。該工具可在模型架構層面降低記憶體佔用，最大化 GPU 硬體效能。

開發者分析指出，MODEL1 在多項底層設計上與 V32 存在明顯差異，包括鍵值（KV）緩存布局、稀疏性處理方式，以及對 FP8 資料格式的解碼支援等，顯示新模型可能在記憶體優化與計算效率方面進行了針對性重構。

從專案文件結構來看，MODEL1或已接近訓練完成或推理部署階段，僅待最終權重凍結與測試驗證。（編輯部）

「MODEL1」新一代大模型浮出水面