亚洲欧美一区二区精品久久久_在线观看欧美日韩电影_好了av在线_成人丝袜18视频在线观看_亚洲欧美日韩精品久久久_**女人18毛片一区二区_欧美一级日韩免费不卡_av免费网站观看_99久久久久国产精品_色综合天天综合网天天狠天天 _91社区在线高清_黑丝美女一区二区

主頁 > 互聯網+ > 正文

蘋果研究:AI推理模型在高復雜度任務中“思考”崩潰

2025-06-09 12:00來源:ITBEAR編輯:時寒峰

掃一掃

分享文章到微信

掃一掃

關注99科技網微信公眾號

  原標題:蘋果研究:AI推理模型在高復雜度任務中“思考”崩潰

  在人工智能領域,一項由蘋果科研團隊發起的研究揭示了大型推理模型(LRM)在應對復雜任務時的局限性,為這一熱門研究方向帶來了意外的冷靜思考。

  研究聚焦于Claude3.7Thinking和Deepseek-R1等推理模型,這些模型旨在通過模擬思維過程來提升問題解決能力。然而,在實際測試中,它們的表現卻令人失望。研究選取了四種經典的邏輯謎題——漢諾塔、跳棋、渡河和積木世界,這些謎題因能夠精確調控任務難度,而被視為評估語言模型推理能力的理想工具。

  測試結果顯示,在簡單任務上,傳統的標準大型語言模型(LLM)表現得更為準確且高效。隨著任務復雜度的提升,雖然推理模型的表現略有改善,但最終還是在高復雜度任務面前全面崩潰。更令人驚訝的是,當面對最復雜的任務時,這些模型不僅準確率驟降至零,而且使用的推理標記(tokens)數量也顯著減少,表明它們在“思考”的意愿和能力上都出現了衰退。

  研究團隊進一步分析了模型在不同復雜度下的推理軌跡,發現兩種典型的失敗模式:一種是“過度思考”,即在簡單問題中,模型找到正確答案后仍持續生成錯誤的備選方案;另一種是“思考崩潰”,在高復雜度問題中,模型的推理過程突然中斷,甚至無法嘗試生成任何解決方案。

  一直以來,推理模型通過引入“思路鏈”和“自我反思”等機制,被視為通往通用人工智能(AGI)的關鍵一步。然而,蘋果的研究指出,這些機制在擴展性上存在根本缺陷。當前的推理模型無法制定出具有通用性的策略,其所謂的“思考”更多是基于統計的生成,而非真正的邏輯演繹。

  研究還發現,模型在不同謎題上的表現與訓練數據密切相關。例如,在訓練數據中頻繁出現的“漢諾塔”任務,其準確率普遍高于復雜度相似但數據較少的“渡河”任務。這進一步凸顯了當前模型對訓練數據分布的嚴重依賴。

  蘋果研究人員指出,當前推理模型的“思維能力”存在與問題復雜度相對的不對稱擴展性問題,在結構上無法支撐高階任務的解決。他們呼吁,應對推理模型的核心設計原則進行重新思考,以克服這些根本性的技術挑戰。

  這一發現對人工智能行業產生了深遠的影響。隨著AI模型規模擴展的收益逐漸趨于飽和,推理能力被視為推動AI邁向下一階段革命的關鍵。包括OpenAI在內的多家頭部企業,都在這一方向上投入了大量資源。然而,蘋果的研究提醒我們,在通往真正“理解”和“推理”的道路上,AI仍然面臨著嚴峻的技術障礙。

?????投稿郵箱:jiujiukejiwang@163.com ??詳情訪問99科技網:http://www.hacbq.cn

相關推薦
硅谷AI領域人才戰升溫,Meta再度挖角蘋果兩位A 硅谷AI領域人才戰升溫,Meta再度挖角蘋果兩位A

原標題:硅谷AI領域人才戰升溫,Meta再度挖角蘋果兩位AI大將 硅谷的人工智能領

互聯網+2025-07-19

蘋果面臨人工智能內部危機 蘋果面臨人工智能內部危機

原標題:蘋果面臨人工智能內部危機 據外媒報道,蘋果正面臨人工智能(AI)領

互聯網+2025-07-01

Meta加大AI人才爭奪,再挖OpenAI四名研究員強化團 Meta加大AI人才爭奪,再挖OpenAI四名研究員強化團

原標題:Meta加大AI人才爭奪,再挖OpenAI四名研究員強化團隊 近期,科技界的人

互聯網+2025-06-29

蘋果新專利:多場景光標控制與手部追蹤校正, 蘋果新專利:多場景光標控制與手部追蹤校正,

原標題:蘋果新專利:多場景光標控制與手部追蹤校正,提升虛擬交互體驗 近

互聯網+2025-06-20

蘋果iOS 26鬧鐘升級:但依然不支持跳過節假日 蘋果iOS 26鬧鐘升級:但依然不支持跳過節假日

原標題:蘋果iOS 26鬧鐘升級:但依然不支持跳過節假日 6月12日消息,在WWDC25開

互聯網+2025-06-12

蘋果iOS26 CarPlay大升級:文本大小可調,還能識別 蘋果iOS26 CarPlay大升級:文本大小可調,還能識別

原標題:蘋果iOS26 CarPlay大升級:文本大小可調,還能識別嬰兒哭聲? 蘋果公司

互聯網+2025-06-07

蘋果自研AI聊天機器人進展神速,能否真正成為 蘋果自研AI聊天機器人進展神速,能否真正成為

原標題:蘋果自研AI聊天機器人進展神速,能否真正成為ChatGPT勁敵? 近期,人

互聯網+2025-05-20

蘋果40年老協議AFP即將退場,macOS未來將何去何從 蘋果40年老協議AFP即將退場,macOS未來將何去何從

原標題:蘋果40年老協議AFP即將退場,macOS未來將何去何從? 蘋果近期宣布了一

互聯網+2025-05-20

蘋果牽手Anthropic,共筑AI編程新平臺,能否破解自 蘋果牽手Anthropic,共筑AI編程新平臺,能否破解自

原標題:蘋果牽手Anthropic,共筑AI編程新平臺,能否破解自研難題? 近期,蘋果

互聯網+2025-05-03

蘋果App Store外部支付禁令升級,27%傭金被判無效 蘋果App Store外部支付禁令升級,27%傭金被判無效

原標題:蘋果App Store外部支付禁令升級,27%傭金被判無效引爭議 近期,蘋果公

互聯網+2025-05-01

?