揭秘文字生成影像AI：Sora 「如何把積木放進盒子裡」

OpenAI 宣布推出名為「Sora」自動生成式人工智能技術，能夠將文本轉化為長達一分鐘的影片。（網絡圖片）

OpenAI推出的Sora，被視為人工智能模擬現實世界模型的基礎。（美聯社圖片）

人工智能大廠OpenAI 宣布推出名為「Sora」（日文中的「天空」）的自動生成式人工智能技術，標榜能以單純文字描述或靜態圖像，即可生成長達一分鐘的1080P解析度影片。「Sora」的推出立刻佔據媒體版面，連一向唱衰OpenAI的馬斯克，都不吝盛讚「Sora」強大。從文字生成影像大場面，「Sora」究竟是如何做到的呢？

根據介紹，Sora除了可自動生成影片內容，更可對應不同呈現風格，並且詮釋不同角色、動作或背景內容，而影片內容更標榜能維持在一定合理表現，更可讓影片內容細節變得更加真實。

「Sora 」透過長達10,000小時的高品質影片進行訓練，本身基於先前推出的GPT、DALL-E等服務模型研究成果打造，讓使用者能透過文字描述、靜態圖片快速生成逼真的影片內容。

不過，即便OpenAI強調「Sora」自動產生影片有高度真實性與合理性，但仍有部分細節難以完整重現，因此仔細觀看的話，可能還是可以看出一些破綻。

視覺塊嵌入代碼

OpenAI 公開 Sora 的詳細報告，介紹了技術原理和應用。受LLM（大語言模型）成功經驗啟發，OpenAI引入視覺塊嵌入代碼（patches），這是種高度可擴展且有效的視覺數據表現形式，大大提升生成模型處理多樣化影片和圖片資料的能力。

OpenAI 先將影片數據壓縮至低維潛在空間，然後再分解為時空嵌入，轉成一系列編碼塊，之後訓練專門降低視覺數據維度的網路，以原始影片輸入，輸出產生一個時間和空間都經過壓縮的潛在空間，Sora正是在這個壓縮後潛在空間訓練，並在這空間產生影片。

OpenAI 還訓練一套解碼器模型，能將潛在表徵還原成圖元級影像。處理壓縮後影像輸入，研究員能提取出一系列時空patchs，在模型扮演類似 Transformer Tokens 的角色。基於patchs的表現形式，Sora能適應不同解析度、持續時間及寬高比影像，產生新內容時，可將隨機初始化patchs照需要大小排成網格，控制最終影片大小和形式。

把積木放進盒子裡

簡單來說，OpenAI開發出的新技術：視覺塊嵌入代碼（簡稱視覺塊），就像將一堆雜亂無章的積木整理好放入小盒子，如此即便面對再多積木，只要找到所屬小盒子，就能輕鬆找到所需積木。影片數據轉化成一個個小方塊，當 OpenAI給Sora新任務時，先從影片提取含時間和空間資訊的小方塊，之後將小方塊交給Sora根據資訊產生新影片，就像拼拼圖將影片重新組合。這樣做的好處是，計算機可更快學習和處理各種類型圖片和影片。

打造世界模型的里程碑

目前OpenAI尚未全面對外開放Sora，僅先以預覽形式提供，並且暫時只有開放特定及OpenAI合作對象使用，同時也透過與外部業者合作，藉由紅對對抗方式評估此服務是否有潛在風險，甚至開放部分藝術家、設計人員與電影製作人使用，藉此改善Sora可能存在問題，另外更與全球政策制定者、教育學者等交流，藉此評估此服務是否會被濫用。

OpenAI將Sora視為「理解和模擬現實世界模型的基礎」，相信能力「是實現 AGI的重要里程碑」，輝達高級科學家Jim Fan表示：「如果你認為OpenAI Sora就像 DALL．E，只是創意實驗工具，那你可能要重新考慮了。」

Sora其實是基於資訊的物理模擬引擎，能類比真實或虛擬世界。模擬器經降噪、計算梯度，學會複雜圖像渲染、「直覺」物理行為、長遠規劃能力及語義層面理解等。這種模型能力，是打造「世界模型」的基礎。

「如何把積木放進盒子裡」

揭秘文字生成影像AI：Sora

相關新聞

人工智能
如何輔助澳門餐飲老字號

AI客服擅自承諾80%折扣
英國小企業捲入財務與法律糾紛

科技巨頭砸錢搶網紅
AI行銷戰全面開打

AI問世軟件已死？
這些科技大佬不同意

AI問世軟件已死？
這些科技大佬不同意

英偉達擬投200億美元入股OpenAI
黃仁勳：將參與下一輪融資

黃仁勳否認不滿OpenAI
稱英偉達將進行歷來最大投資

調查揭AI難辨假影片
ChatGPT對自家Sora識別率不足一成

推薦新聞

泰國推「限糖令」
九大咖啡連鎖預設甜度減半

高市確定續任首相
現有閣員全數留任

Logan Paul「插畫家皮卡丘」聖杯卡
拍出1,650萬美元創新天價

奧巴馬受訪稱「外星人存在」
隨後澄清任內未見接觸證據

即時新聞

2026澳娛綜合澳門國際龍舟賽

2月23日起進行隊伍註冊

市政署關注美國部分地區出現高致病性禽流感

輕軌公司延續新春喜氣

全新主題列車登場賀馬年

科技基金走訪澳琴科企深化對接

推動科研成果產業化

司警局籲警惕虛假中國銀行釣魚短訊

慎防個人及信用卡資料被盜

岑浩輝年初四走訪多區

了解市面人流及商戶經營情況

七日預報

「如何把積木放進盒子裡」

揭秘文字生成影像AI：Sora

相關新聞

人工智能 如何輔助澳門餐飲老字號

AI客服擅自承諾80%折扣 英國小企業捲入財務與法律糾紛

科技巨頭砸錢搶網紅 AI行銷戰全面開打

AI問世 軟件已死？ 這些科技大佬不同意

AI問世 軟件已死？ 這些科技大佬不同意

英偉達擬投200億美元入股OpenAI 黃仁勳：將參與下一輪融資

黃仁勳否認不滿OpenAI 稱英偉達將進行歷來最大投資

調查揭AI難辨假影片 ChatGPT對自家Sora識別率不足一成

推薦新聞

泰國推「限糖令」 九大咖啡連鎖預設甜度減半

高市確定續任首相 現有閣員全數留任

Logan Paul「插畫家皮卡丘」聖杯卡 拍出1,650萬美元創新天價

奧巴馬受訪稱「外星人存在」 隨後澄清任內未見接觸證據

即時新聞

2026澳娛綜合澳門國際龍舟賽

2月23日起進行隊伍註冊

市政署關注美國部分地區出現高致病性禽流感

輕軌公司延續新春喜氣

全新主題列車登場賀馬年

科技基金走訪澳琴科企深化對接

推動科研成果產業化

司警局籲警惕虛假中國銀行釣魚短訊

慎防個人及信用卡資料被盜

岑浩輝年初四走訪多區

了解市面人流及商戶經營情況

微信 ID： exmoo_news

七日預報

微信 ID： exmoo_news

人工智能
如何輔助澳門餐飲老字號

AI客服擅自承諾80%折扣
英國小企業捲入財務與法律糾紛

科技巨頭砸錢搶網紅
AI行銷戰全面開打

AI問世軟件已死？
這些科技大佬不同意

AI問世軟件已死？
這些科技大佬不同意

英偉達擬投200億美元入股OpenAI
黃仁勳：將參與下一輪融資

黃仁勳否認不滿OpenAI
稱英偉達將進行歷來最大投資

調查揭AI難辨假影片
ChatGPT對自家Sora識別率不足一成

泰國推「限糖令」
九大咖啡連鎖預設甜度減半

高市確定續任首相
現有閣員全數留任

Logan Paul「插畫家皮卡丘」聖杯卡
拍出1,650萬美元創新天價

奧巴馬受訪稱「外星人存在」
隨後澄清任內未見接觸證據