Tom’s Hardware本月2日報道,英偉達(Nvidia)在最新論文中披露名為TiDAR 的新型AI解碼方法,將自回歸(Autoregressive)與擴散(Diffusion)機制融合於單一模型內,利用 GPU 推理過程中的「空閒算力槽位」,實現一次生成多個詞元(Token),從而大幅提升文本生成效率並降低運算延遲。
TiDAR 透過結構化注意力遮罩,把輸入劃分為前綴區、驗證區與起草區,讓模型同時進行自回歸驗證與擴散式並行起草,無須額外草稿模型,亦能確保 KV Cache 結構有效,解決過往擴散解碼難以實務部署的問題。
研究團隊以Qwen 系列模型測試,顯示其準確率與原模型持平甚至略優。在效能方面,15 億參數版本吞吐量提升 4.71 倍,而 80 億參數版本達 5.91 倍,意味在不增加顯存搬運負擔下,可輸出更多詞元,理論上令整體吞吐量最高提升近 600%。
不過研究亦指出,TiDAR目前僅於中小模型與標準 PyTorch 環境下測試,尚未驗證於超大型模型與更高計算密度場景的可行性。英偉達表示,未來將擴展至更大規模模型,以評估其作為雲端 AI 部署加速方案的實際應用潛力。(編輯部)