研究：人類讀時鐘準確率近九成 AI準確率僅13%

研究：人類讀時鐘準確率近九成

AI準確率僅13%

15/09/2025

21748

一項最新研究顯示，人類在讀取指針式時鐘的準確率高達 89.1%，但目前表現最佳的人工智能（AI）模型僅有13.3%，凸顯出語言模型在視覺推理方面與人類仍存在巨大差距。

研究由阿萊克・薩法爾（Alek Safar）主導，他設計了名為 ClockBench 的新測試，邀請來自六家企業的11個大型語言模型與五名人類進行比拼。該數據集涵蓋36種獨特鐘面設計，包括羅馬與阿拉伯數字、鏡像布局和彩色背景，共製作 180個時鐘並設計720道測題，涵蓋讀取時間、計算時差、指針調整及時區轉換。

結果顯示，人類的時間判讀中位誤差僅 3 分鐘，而 AI 模型普遍誤差高達 1 至三小時，接近隨機猜測。谷歌 Gemini 2.5 Pro 以 13.3% 的準確率居首，GPT-5僅 8.4%，而 Grok 4 僅有 0.7%，大部分時鐘甚至被誤判為「無效」。Anthropic 的 Claude 系列同樣表現不佳。研究並指出，羅馬數字與彩色背景對 AI 判斷干擾尤其明顯。

薩法爾認為，問題不在於AI的數學運算，而在於「如何從視覺訊息中讀取時間」。他強調，ClockBench 將作為長期基準測試，推動AI在視覺推理領域尋求全新突破。（編輯部）

AI準確率僅13%