ChatGPT再進化將新增語音及影像功能

ChatGPT再進化

將新增語音及影像功能

27/09/2023

145714

OpenAI周一宣布，將新增語音和影像功能，賦予AI交談與識別圖片意義的能力。（資料圖片）

研發聊天機器人ChatGPT的美國公司OpenAI周一宣布，長期以來僅限於輸入文字提示的生成式人工智慧（AI）平台將新增語音和影像功能。在接下來兩周內，將賦予ChatGPT使用語音和音訊與付費用戶交談的能力，與谷歌（Google）的Assistant、蘋果的Siri或亞馬遜的Alexa等個人助理產品形成直接競爭。

法新社報道，ChatGPT將可以使用五種不同角色，包括Juniper、Sky、Cove、Ember和Breeze，來回應付費用戶的查詢與提問，其語氣聽起來比Alexa和Siri等更具人性化對話的感覺。OpenAI表示，增加語音功能是它讓更多人與ChatGPT互動和使用的關鍵方式。

OpenAI說，「你現在可以使用語音與你的助理進行來回對話。隨時隨地與它交談，為你的家人要求提供一個睡前故事，或解決餐桌上的爭論。」OpenAI與配音員合作，使得語音互動更逼真。

宣布與Spotify合作

值得一提的是，OpenAI在發布更新的同一天，也宣布與Spotify合作，利用AI將Podcast轉換成其他語言，並且保留與創作者相似的聲音與風格，這項技術同樣是基於Whisper打造。

目前Spotify提供《Lex Fridman Podcast》、《Armchair Expert》、《The Diary of a CEO with Steven Bartlett》這三個系列英文Podcast轉換為西班牙語收聽，並將支援法語、德語，未來幾周內還會有更多Podacst支援這項新功能。

理解圖像內容意義

至於圖片的部分，ChatGPT 會基於自己對其內容的理解（而非傳統的以圖搜圖）來作出回應。新功能的範例包括拍下冰箱內部的照片就可取得餐點食譜建議，或是拍下孩子的數學作業照片就能幫忙解決題目。

在使用過程中，用家除了能以文字或語音進行補充說明外，還可以直接在圖片上進行標注。值得一提的是，出於準確性和隱私保護方面的考量，OpenAI 故意限制了「對某個人進行分析並直接表明對其態度的能力」。

OpenAI在一篇文章中表示，「語音和影像為大家提供更多在生活中使用ChatGPT的方式。」文中還說，「在旅行時拍下一張地標的照片，就能即時討論當中有趣的地方。」

根據OpenAI說法，語音和影像功能將在未來幾周內向ChatGPT Plus和Enterprise用戶推出，最後會進入蘋果和谷歌智能手機作業系統。

OpenAI消費產品副總鄧修平（Peter Deng）受訪時表示，「這就是我們面臨的挑戰。最困難的工作之一就是採用這項令人驚嘆的技術，並將其轉化為未來300至400億人所尋求的簡單性。」

將新增語音及影像功能