小米聲音大模型 MiDashengLM-7B發布

全量開源並刷新22項評測紀錄
05/08/2025
2826
收藏
分享
全量開源並刷新22項評測紀錄

小米近日正式發布並全量開源自研聲音理解大模型 MiDashengLM-7B,在聲音理解領域實現性能與效率的雙重突破。該模型基於 Xiaomi Dasheng 音頻編碼器與 Qwen2.5-Omni-7B Thinker 解碼器組成,透過創新通用音頻描述訓練策略,實現對語音、環境聲與音樂的統一理解。

據官方介紹,MiDashengLM-7B 單樣本首 Token 延遲僅為同類模型的四分之一,同顯存條件下並發能力提升超過 20 倍,並在 22 個公開評測集上刷新多模態大模型最佳成績(SOTA)。該模型使用 100% 公開數據訓練,並以 Apache 2.0 開源授權釋出,支持學術與商業應用。

Xiaomi Dasheng 系列此前已在 AudioSet 與 HEAR Benchmark 上取得領先表現,目前在小米智能家居與汽車座艙場景已落地超過 30 項應用,包括車外唤醒防御、環境聲聯動 IoT 控制與智能哨兵模式等。

小米強調,MiDashengLM 不僅能理解聲音表層內容,亦能解析其背後意涵,提升人機互動的自然性與泛化能力。未來,該模型還將優化計算效率,實現終端離線部署與聲音編輯功能,深化小米「人車家全生態」戰略布局。(編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報