Meta砸百億投資Scale AI 

數據煉金術成AI競賽新戰場
25/06/2025
4821
收藏
分享
數據煉金術成AI競賽新戰場

隨著人工智能(AI)技術加速演進,全球AI競賽已從比拚演算法與晶片效能,轉向更具戰略價值的「數據原料」爭奪戰。Meta於2025年6月中斥資143億美元,取得新創數據公司Scale AI近半股權,成為其史上第二高金額的收購案,背後不僅是資本佈局,更是對未來AI競爭優勢的重新定義。隨著AI進入推理時代,對數據質量的要求也越來越高。 (AI生成圖片)

AI的發展仰賴三大支柱──演算法、算力與資料。過去幾年,全球聚焦在大型語言模型如ChatGPT,以及GPU供應商輝達的強勢表現,但隨著模型推理階段深入,「資料」的重要性愈發凸顯。AI模型若缺乏大量、高品質、結構化且更新迅速的語料支撐,即便演算法再精巧也難以維持進步。

Scale AI:數據世界的台積電

成立於2016年的Scale AI,專門提供數據標註與清洗服務,為AI模型訓練提供「可讀懂的內容」。這不只是單純的資料外包,而是涵蓋資料收集、標註策略設計、驗證與更新的全流程服務,被譽為「數據代工廠」。Scale AI的客戶涵蓋OpenAI、Meta、Google乃至美國國防部,還與Meta合作開發軍事語言模型「國防LLaMA」,展現其在敏感場景中的資料處理實力。

相較於傳統標註平台僅提供工具,Scale AI 更像是「顧問+工廠」的組合,能根據不同客戶用途提供量身訂製方案。目前公司年營收已突破8.7億美元,預估2025年將翻倍至逾20億美元。

此次Meta大舉投資,除了取得Scale AI 49%股權,也將其創辦人、年僅28歲的汪滔(Alexandr Wang)納入新成立的AG(I通用人工智慧)部門,顯示其不只是資本投資,更是策略性的長期結盟。

然而,這也引發市場對中立性的憂慮。Scale AI原本為包括OpenAI、Google、微軟在內多家AI企業提供數據服務,如今成為Meta深度持股公司,是否仍能保持資料供應公平性備受質疑。據《 路透社 》報道,Google計劃中止與Scale AI的合作,微軟與xAI亦可能陸續退出。

資料即資產 內容產業價值重估

除了企業自建數據外,新聞媒體等內容生產者也成為重要供應方。美國《 紐約時報 》與亞馬遜達成內容授權協議,將其經過查證的新聞內容用作AI訓練語料。類似案例也出現在美聯社對OpenAI的授權上,展現「 內容即資料、資料即服務 」的新價值觀。

這也對中文語境的AI發展帶來挑戰。根據阿里研究院的《大模型訓練數據白皮書》顯示,全球可爬取網頁中文語料僅佔1.3%,遠低於英文的59.8%。維基百科條目數量也顯示出相差近五倍,中文AI模型普遍面臨訓練語料不足的瓶頸。

為解決此問題,中國官方積極主導資料建設,透過人民網、網信辦等構建「價值觀對齊」語料庫,支援AI訓練安全發展;同時也有科大訊飛、海天瑞聲、雲測數據等本土公司承擔大規模資料標註與清洗工作。

IDC數據顯示,中國AI訓練資料集市場2023 年規模約2.6億美元,預期至2032年將達23.2億美元,年均增長率達27.4%,反映其成長潛力。

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報