小米近日正式發布並全量開源自研聲音理解大模型 MiDashengLM-7B,在聲音理解領域實現性能與效率的雙重突破。該模型基於 Xiaomi Dasheng 音頻編碼器與 Qwen2.5-Omni-7B Thinker 解碼器組成,透過創新通用音頻描述訓練策略,實現對語音、環境聲與音樂的統一理解。
據官方介紹,MiDashengLM-7B 單樣本首 Token 延遲僅為同類模型的四分之一,同顯存條件下並發能力提升超過 20 倍,並在 22 個公開評測集上刷新多模態大模型最佳成績(SOTA)。該模型使用 100% 公開數據訓練,並以 Apache 2.0 開源授權釋出,支持學術與商業應用。
Xiaomi Dasheng 系列此前已在 AudioSet 與 HEAR Benchmark 上取得領先表現,目前在小米智能家居與汽車座艙場景已落地超過 30 項應用,包括車外唤醒防御、環境聲聯動 IoT 控制與智能哨兵模式等。
小米強調,MiDashengLM 不僅能理解聲音表層內容,亦能解析其背後意涵,提升人機互動的自然性與泛化能力。未來,該模型還將優化計算效率,實現終端離線部署與聲音編輯功能,深化小米「人車家全生態」戰略布局。(編輯部)