研究:人類讀時鐘準確率近九成

AI準確率僅13%
15/09/2025
3287
收藏
分享
AI準確率僅13%

一項最新研究顯示,人類在讀取指針式時鐘的準確率高達 89.1%,但目前表現最佳的人工智能(AI)模型僅有13.3%,凸顯出語言模型在視覺推理方面與人類仍存在巨大差距。

研究由阿萊克・薩法爾(Alek Safar)主導,他設計了名為 ClockBench 的新測試,邀請來自六家企業的11個大型語言模型與五名人類進行比拼。該數據集涵蓋36種獨特鐘面設計,包括羅馬與阿拉伯數字、鏡像布局和彩色背景,共製作 180個時鐘並設計720道測題,涵蓋讀取時間、計算時差、指針調整及時區轉換。

結果顯示,人類的時間判讀中位誤差僅 3 分鐘,而 AI 模型普遍誤差高達 1 至三小時,接近隨機猜測。谷歌 Gemini 2.5 Pro 以 13.3% 的準確率居首,GPT-5僅 8.4%,而 Grok 4 僅有 0.7%,大部分時鐘甚至被誤判為「無效」。Anthropic 的 Claude 系列同樣表現不佳。研究並指出,羅馬數字與彩色背景對 AI 判斷干擾尤其明顯。

薩法爾認為,問題不在於AI的數學運算,而在於「如何從視覺訊息中讀取時間」。他強調,ClockBench 將作為長期基準測試,推動AI在視覺推理領域尋求全新突破。(編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報