ChatGPT再進化

將新增語音及影像功能
27/09/2023
118374
收藏
分享
將新增語音及影像功能

OpenAI周一宣布,將新增語音和影像功能,賦予AI交談與識別圖片意義的能力。(資料圖片)

研發聊天機器人ChatGPT的美國公司OpenAI周一宣布,長期以來僅限於輸入文字提示的生成式人工智慧(AI)平台將新增語音和影像功能。在接下來兩周內,將賦予ChatGPT使用語音和音訊與付費用戶交談的能力,與谷歌(Google)的Assistant、蘋果的Siri或亞馬遜的Alexa等個人助理產品形成直接競爭。

法新社報道,ChatGPT將可以使用五種不同角色,包括Juniper、Sky、Cove、Ember和Breeze,來回應付費用戶的查詢與提問,其語氣聽起來比Alexa和Siri等更具人性化對話的感覺。OpenAI表示,增加語音功能是它讓更多人與ChatGPT互動和使用的關鍵方式。

OpenAI說,「你現在可以使用語音與你的助理進行來回對話。隨時隨地與它交談,為你的家人要求提供一個睡前故事,或解決餐桌上的爭論。」OpenAI與配音員合作,使得語音互動更逼真。

宣布與Spotify合作

值得一提的是,OpenAI在發布更新的同一天,也宣布與Spotify合作,利用AI將Podcast轉換成其他語言,並且保留與創作者相似的聲音與風格,這項技術同樣是基於Whisper打造。

目前Spotify提供《Lex Fridman Podcast》、《Armchair Expert》、《The Diary of a CEO with Steven Bartlett》這三個系列英文Podcast轉換為西班牙語收聽,並將支援法語、德語,未來幾周內還會有更多Podacst支援這項新功能。

理解圖像內容意義

至於圖片的部分,ChatGPT 會基於自己對其內容的理解(而非傳統的以圖搜圖)來作出回應。新功能的範例包括拍下冰箱內部的照片就可取得餐點食譜建議,或是拍下孩子的數學作業照片就能幫忙解決題目。

在使用過程中,用家除了能以文字或語音進行補充說明外,還可以直接在圖片上進行標注。值得一提的是,出於準確性和隱私保護方面的考量,OpenAI 故意限制了「對某個人進行分析並直接表明對其態度的能力」。

OpenAI在一篇文章中表示,「語音和影像為大家提供更多在生活中使用ChatGPT的方式。」文中還說,「在旅行時拍下一張地標的照片,就能即時討論當中有趣的地方。」

根據OpenAI說法,語音和影像功能將在未來幾周內向ChatGPT Plus和Enterprise用戶推出,最後會進入蘋果和谷歌智能手機作業系統。

OpenAI消費產品副總鄧修平(Peter Deng)受訪時表示,「這就是我們面臨的挑戰。最困難的工作之一就是採用這項令人驚嘆的技術,並將其轉化為未來300至400億人所尋求的簡單性。」

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報