蘋果開源 SlowFast-LLaVA-1.5

刷新長視頻AI模型基準
24/08/2025
7408
收藏
分享
刷新長視頻AI模型基準

科技媒體9to5Mac報道,蘋果研究團隊宣布開源長視頻多模態大語言模型 SlowFast-LLaVA-1.5,並在10億、30億與70億參數規模下,刷新 LongVideoBench、MLVU等長視頻理解基準紀錄。

現有視頻大模型普遍依賴長上下文窗口,訓練流程複雜,且常僅針對視頻任務優化,導致圖像理解能力下降。蘋果提出的SlowFast-LLaVA採用創新「雙流」架構:慢流選取少量高分辨率幀捕捉細節,快流則以更多低分辨率幀追蹤動態。升級版 SlowFast-LLaVA-1.5在此基礎上微調圖像模型,結合圖像與視頻訓練,兼顧視頻與圖像推理能力。

在設計上,SF-LLaVA-1.5 將輸入幀數固定為128(快流96幀、慢流32幀),有效降低算力與顯存需求。雖可能遺漏關鍵幀或影響動作判斷,但研究團隊表示,後續可透過隨機反向傳播等技術改善。

測試顯示,該模型不僅在長視頻任務上刷新SOTA,亦在知識問答、數學推理、OCR等圖像任務中表現突出。該專案完全基於公開數據集訓練,已在 GitHub 與Hugging Face全面開源,方便學界與產業界復現與應用。(編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報