李飛飛長文談「空間智能」:

AI的下個前沿 是通往真正機器智能的關鍵突破
13/11/2025
2510
收藏
分享
AI的下個前沿 是通往真正機器智能的關鍵突破

斯坦福大學教授、World Labs 聯合創辦人李飛飛近日發表長文《從文字到世界:空間智能是 AI 的下個前沿》(From Words to Worlds: Spatial Intelligence is AI’s Next Frontier),指出當前以大型語言模型(LLM)為代表的人工智慧雖能處理龐大知識,但依然「在黑暗中行走」,缺乏對真實世界的理解。她強調,「空間智能」(Spatial Intelligence)—— 即人類用以理解、導航並與三維世界互動的能力,將是實現真正通用人工智能(AGI)的關鍵突破。

AI女王李飛飛稱,如今的LLM仍是「 黑暗中的文字匠 」。 (網絡圖片)

「AI仍是黑暗中的說書人」

李飛飛指出,如今的 LLM 雖能生成文本、程式碼與圖像,已深刻改變人類創造與溝通方式,但它們仍是「黑暗中的文字匠」—— 能言善辯,卻缺乏經驗與物理常識。她認為,AI 要真正理解世界,必須具備與人類相似的空間推理與感知能力,能夠想像、操控並解釋三維環境中的關係、物理法則與行為。

她回顧自己25年來的研究歷程,從建立 ImageNet 推動視覺革命,到將電腦視覺與機器人學結合,再到創立 World Labs,都是為了追尋讓 AI「看懂並行動於世界」的目標。

空間智能:人類認知的支架

李飛飛指出,人類的智慧源自感知與行動的循環。早在語言、文化或科技誕生之前,生物便透過觀察、觸覺與動作理解環境,這種進化機制奠定了智能的基礎。

空間智能滲透於日常生活——從開車、接物、走路到設計與創作;消防員在煙霧中判斷方向、孩子通過遊戲學習世界,這些都是目前 AI 難以模仿的「自發理解」。

她指出,空間智能不僅支撐人類的行動,也孕育了想像力與創造力:藝術家、建築師、工程師與科學家都依靠空間推理來構思與實踐。歷史上的重大發現——從埃拉托斯特尼以幾何測地球周長,到沃森與克里克構建 DNA 模型——皆源於對空間結構的洞察。

為何AI仍「不懂世界」

儘管多模態大型模型(MLLM)已能處理影像、影片甚至生成短片,但其空間理解仍十分有限。「最先進的模型在估算距離、方向或旋轉時的表現幾乎與隨機相同,無法預測基本物理規律,生成影片往往幾秒後就失去連貫性,」李飛飛寫道。

她認為,真正的智慧不僅是語言能力,更包括對世界關係的整體理解。沒有空間智能,AI 將無法安全駕駛、協助醫療、構建沉浸式學習體驗,或推動科學研究。「AI 必須從文字邏輯走向世界理解,才能真正貼近現實。」

「世界模型」:AI的下一步

李飛飛提出,實現空間智能的核心是建立「世界模型」(World Models)—— 一種能理解、生成並與語義、物理、幾何與動態世界互動的新型生成模型。她將其能力歸納為三個方向:生成性:能產生符合物理與幾何規律的模擬世界,並保持時間與狀態的一致性;多模態性:能接收圖像、文本、手勢等多種輸入,並以不同形式生成完整世界;交互性:能根據動作輸入預測世界的下一個狀態,形成「理解—行動—再理解」的閉環。

她指出,這將是未來十年AI領域的決定性挑戰。World Labs 正在研發相關架構與算法,如可維持場景連貫性的即時生成模型 RTFM,以及首個能透過多模態輸入創建持續3D環境的世界模型Marble。

「維特根斯坦說:『我的語言的界限意味著我的世界的界限。』對 AI 來說,這句話尤為貼切,」李飛飛寫道。她相信,空間智能代表著 AI 從語言邏輯走向感知、想像與行動的躍遷,「它將使機器真正成為人類的創造與探索夥伴,開啟新一輪的智能革命。」

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

推薦新聞

找不到相關內容

七日預報