英偉達(Nvidia)6月30日發文表示,透過在Blackwell平台上優化全棧推理,相較DeepSeek V4模型一個月前上線初期,單Token成本最多已降至五分之一,並稱相關成本已達行業最低水平。
英偉達表示,單Token成本已成為衡量AI總擁有成本的重要指標。所謂單Token成本,是指模型生成或處理單個Token所需成本,常用於比較不同硬件、軟件棧或部署方式下的推理效率。
在技術層面,英偉達透過三層架構優化推理效率,包括負責分布式服務、編排、自動擴縮容及內存管理的生產運營層;負責計算與通信重疊、內核融合等運行時優化的應用加速層;以及調用GPU、網絡、內存和系統能力的基礎設施訪問層。
性能方面,英偉達稱,透過分離式服務、大規模專家並行、基於NVIDIA NVLink的並行通信、NVFP4精度及多Token預測等技術疊加優化後,Blackwell平台單GPU的Token吞吐量最高可提升20倍。(編輯部)