2025年被普遍視為中國人工智能(AI)發展的關鍵轉捩點。在「DeepSeek時刻」震撼全球滿一年後,中國生成式AI的影響力正以驚人速度擴張。根據《日經新聞》報導,截至2025年11月,中國企業開發的生成式AI模型在全球市場的占有率已升至約15%,較一年前僅約1%的水準呈現爆發式成長,顯示中國正逐步由追隨者,轉變為走出一條「自主技術路線」的重要競爭者。
分析指出,中國生成式AI的快速崛起,與其開源策略密不可分。以 DeepSeek 及阿里巴巴集團旗下「通義千問」(Qwen)為代表的模型,正成為推動全球開發者採用的重要力量。截至2026年1月,Qwen 系列在開發者平台 Hugging Face 上的累計下載量已突破7億次,成為目前全球使用最廣泛的開源AI模型之一。相較於美國科技巨頭偏向封閉原始碼、依算力或使用量收費的商業模式,中國企業選擇釋出從輕量化到大規模參數的多種模型,降低應用門檻,吸引全球開發者快速構建產品。
在模型效能方面,中國AI亦展現出日益突出的競爭力。多項第三方評測顯示,DeepSeek在日語能力等測試中位居開源模型前列,表現甚至超越部分由 Google 與 OpenAI 推出的開源版本。日本企業與研究機構亦已開始採用 Qwen 等中國模型,作為推動本地AI計畫的重要基礎。
面對美國對先進晶片的出口管制,中國AI企業則轉向以算法與架構創新突破算力限制。智譜AI近期推出首個完全基於國產半導體平台訓練的先進多模態模型,實現從資料取得、模型訓練到部署的全流程自主化。研究機構預測,到2026年,華為等本土企業在中國AI晶片市場的占比有望升至80%,顯示產業鏈正加速向本土整合。
新一代文檔識別模型
在此背景下,DeepSeek近日公布新一代文檔識別模型 DeepSeek-OCR 2,被視為中國AI技術持續演進的具體例證。該模型在前代 DeepSeek-OCR 基礎上,核心升級集中於視覺編碼器設計,引入名為 DeepEncoder V2 的新型結構。該架構可根據圖像語義動態調整視覺資訊的處理順序,使模型在進行文字識別前,先對畫面內容進行「智能排序」,更貼近人類實際閱讀文件、表格與公式時的認知方式。
研究團隊指出,傳統視覺語言模型多依照固定的空間順序處理圖像,容易在版式複雜的文件中忽略語義邏輯。DeepSeek-OCR 2 則引入「視覺因果流」概念,透過雙向注意力進行全局感知,同時利用因果注意力逐步建立語義先後關係,並僅將經重排後的關鍵視覺資訊送入後端語言模型解碼,在不顯著增加算力負擔的前提下提升理解能力。
在 OmniDocBench v1.5 基準測試中,DeepSeek-OCR 2 的整體得分達91.09%,較前代提升3.73%,其中閱讀順序準確度明顯改善。在實際生產環境中,該模型的重複識別率亦顯著下降,顯示其在高壓縮率下仍能維持穩定表現,有利於商業部署。
業界認為,隨著開源模型生態成熟、算法持續優化及本土算力體系逐步建立,中國生成式AI正從「追趕」邁向「並跑甚至領跑」的新階段。在全球AI競爭格局快速重塑之際,這條以開源、生態與自主技術為核心的發展路線,正成為市場與資本高度關注的長期趨勢。 (編輯部)