蘋果研究稱AI是記憶而非推理複雜任務準確率恐驟降為零

蘋果研究稱AI是記憶而非推理

複雜任務準確率恐驟降為零

10/06/2025

22547

蘋果機器學習研究中心於6日發表最新研究論文，質疑當前大型推理模型（LRMs）真正具備推理與思考能力。研究指出，這些AI模型實際上依賴的是模式匹配與記憶，而非真正邏輯推理。

研究團隊對包括OpenAI o3-mini、DeepSeek-R1、Anthropic Claude 3.7 Sonnet Thinking及Google Gemini Thinking等前沿模型進行評估，發現它們在中等複雜度任務中表現良好，但一旦任務複雜度超過臨界點，準確率會驟降至零。研究還指出，模型在高難度任務中反而使用更少token進行思考，顯示出推理機制的根本性瓶頸。

論文《思考的幻象》指出，傳統評估方法過度依賴數學與編程基準，忽略內部推理過程與潛在數據污染問題。研究人員採用可控解謎環境分析模型的推理軌跡，發現即便是具備思考鏈生成能力的模型，也無法在高複雜度下穩定運行。

研究建議，未來應採用更細緻的實驗設計，以全面理解語言模型推理的本質與侷限。

蘋果機器學習研究中心公布最新研究，質疑AI的推理能力。（網絡圖片）

複雜任務準確率恐驟降為零

蘋果研究稱AI是記憶而非推理

相關新聞

中國AI產值破1.2萬億元
仍有四大瓶頸待突破

中國AI產值破1.2萬億元
仍有四大瓶頸待突破

AI版支付寶「阿寶」上線
螞蟻集團搶攻智能體支付入口

蘋果測試Siri接入多款AI模型
擬打造開放式智能助理平台

高盛：AI概念股仍偏熱
但距離泡沫高峰尚有距離

蘋果測試Siri接入多款AI模型
擬打造開放式智能助理平台

畢馬威陷AI內容爭議
AI行業報告遭揭充斥幻覺

搶當AI第一股
Anthropic與OpenAI爭奪定價權

推薦新聞

小紅書傳秘密遞表港交所
有望成近年最大IPO之一

蘋果測試Siri接入多款AI模型
擬打造開放式智能助理平台

內地政府債券餘額首破百萬億元
負債率升至約70%

高盛：AI概念股仍偏熱
但距離泡沫高峰尚有距離

從Evernote到WeTransfer
Bending Spoons衝刺200億美元估值

亞馬遜首度披露資料中心用水量
稱耗水強度低於同業

Anthropic陷監管風暴
Fable 5遭禁後急赴華府談判

內地居民兩個月搬走2萬億元存款
資金流向理財保險與還貸

即時新聞

人民領袖｜光影同幀初心如磐

端午假期疊加高考結束與父親節

內地跨區出行量突破2.35億人次

傳多款嬰兒紙尿褲含毒？

造紙學會稱檢測有瑕疵

女接受正頜手術變「朱元璋」

醫生反稱「臉型更洋氣」

18歲「小馬雲」傳將當爸爸

女友直播稱懷上雙胞胎

日本日清杯麵疑混入塑膠碎片

回收28.7萬件杯裝炒麵

七日預報

複雜任務準確率恐驟降為零

蘋果研究稱AI是記憶而非推理

相關新聞

中國AI產值破1.2萬億元 仍有四大瓶頸待突破

中國AI產值破1.2萬億元 仍有四大瓶頸待突破

AI版支付寶「阿寶」上線 螞蟻集團搶攻智能體支付入口

蘋果測試Siri接入多款AI模型 擬打造開放式智能助理平台

高盛：AI概念股仍偏熱 但距離泡沫高峰尚有距離

蘋果測試Siri接入多款AI模型 擬打造開放式智能助理平台

畢馬威陷AI內容爭議 AI行業報告遭揭充斥幻覺

搶當AI第一股 Anthropic與OpenAI爭奪定價權

推薦新聞

小紅書傳秘密遞表港交所 有望成近年最大IPO之一

蘋果測試Siri接入多款AI模型 擬打造開放式智能助理平台

內地政府債券餘額首破百萬億元 負債率升至約70%

高盛：AI概念股仍偏熱 但距離泡沫高峰尚有距離

從Evernote到WeTransfer Bending Spoons衝刺200億美元估值

亞馬遜首度披露資料中心用水量 稱耗水強度低於同業

Anthropic陷監管風暴 Fable 5遭禁後急赴華府談判

內地居民兩個月搬走2萬億元存款 資金流向理財保險與還貸

即時新聞

​人民領袖｜光影同幀 初心如磐

端午假期疊加高考結束與父親節

內地跨區出行量突破2.35億人次

傳多款嬰兒紙尿褲含毒？

造紙學會稱檢測有瑕疵

女接受正頜手術變「朱元璋」

醫生反稱「臉型更洋氣」

18歲「小馬雲」傳將當爸爸

女友直播稱懷上雙胞胎

日本日清杯麵疑混入塑膠碎片

回收28.7萬件杯裝炒麵

微信 ID： exmoo_news

七日預報

微信 ID： exmoo_news

中國AI產值破1.2萬億元
仍有四大瓶頸待突破

中國AI產值破1.2萬億元
仍有四大瓶頸待突破

AI版支付寶「阿寶」上線
螞蟻集團搶攻智能體支付入口

蘋果測試Siri接入多款AI模型
擬打造開放式智能助理平台

高盛：AI概念股仍偏熱
但距離泡沫高峰尚有距離

蘋果測試Siri接入多款AI模型
擬打造開放式智能助理平台

畢馬威陷AI內容爭議
AI行業報告遭揭充斥幻覺

搶當AI第一股
Anthropic與OpenAI爭奪定價權

小紅書傳秘密遞表港交所
有望成近年最大IPO之一

蘋果測試Siri接入多款AI模型
擬打造開放式智能助理平台

內地政府債券餘額首破百萬億元
負債率升至約70%

高盛：AI概念股仍偏熱
但距離泡沫高峰尚有距離

從Evernote到WeTransfer
Bending Spoons衝刺200億美元估值

亞馬遜首度披露資料中心用水量
稱耗水強度低於同業

Anthropic陷監管風暴
Fable 5遭禁後急赴華府談判

內地居民兩個月搬走2萬億元存款
資金流向理財保險與還貸

人民領袖｜光影同幀初心如磐