一項最新研究顯示,人類在讀取指針式時鐘的準確率高達 89.1%,但目前表現最佳的人工智能(AI)模型僅有13.3%,凸顯出語言模型在視覺推理方面與人類仍存在巨大差距。
研究由阿萊克・薩法爾(Alek Safar)主導,他設計了名為 ClockBench 的新測試,邀請來自六家企業的11個大型語言模型與五名人類進行比拼。該數據集涵蓋36種獨特鐘面設計,包括羅馬與阿拉伯數字、鏡像布局和彩色背景,共製作 180個時鐘並設計720道測題,涵蓋讀取時間、計算時差、指針調整及時區轉換。
結果顯示,人類的時間判讀中位誤差僅 3 分鐘,而 AI 模型普遍誤差高達 1 至三小時,接近隨機猜測。谷歌 Gemini 2.5 Pro 以 13.3% 的準確率居首,GPT-5僅 8.4%,而 Grok 4 僅有 0.7%,大部分時鐘甚至被誤判為「無效」。Anthropic 的 Claude 系列同樣表現不佳。研究並指出,羅馬數字與彩色背景對 AI 判斷干擾尤其明顯。
薩法爾認為,問題不在於AI的數學運算,而在於「如何從視覺訊息中讀取時間」。他強調,ClockBench 將作為長期基準測試,推動AI在視覺推理領域尋求全新突破。(編輯部)