亚洲欧美一区二区精品久久久_在线观看欧美日韩电影_好了av在线_成人丝袜18视频在线观看_亚洲欧美日韩精品久久久_**女人18毛片一区二区_欧美一级日韩免费不卡_av免费网站观看_99久久久久国产精品_色综合天天综合网天天狠天天 _91社区在线高清_黑丝美女一区二区

主頁 > 快資訊 > 正文

Anthropic最新Claude Opus 4.5大模型上市,API價格大降2/3(2)

2025-11-25 18:25來源:Techweb編輯:張易川

掃一掃

分享文章到微信

掃一掃

關注99科技網微信公眾號

  在長時間運行的任務中,Opus 4.5 能夠持續保持正軌,其在 Vending-Bench 上的得分比 Sonnet 4.5 高出 29%。

  Anthropic還舉例闡述了Claude Opus 4.5在Agent能力上的超越基準的表現。

  在Claude Opus 4.5模型充當航空公司服務Agent,幫助陷入困境的客戶時,該基準預計,由于航空公司不允許更改該艙位的機票,模型將拒絕修改基本經濟艙預訂。相反,Opus 4.5找到了一種有效且合法的方法來解決這個問題:首先升級機艙,然后修改航班。

  這個案例中,Claude Opus 4.5是這樣思考和處理問題的:

  讓我想想在我的政策范圍內有什么選項:

  修改航班 - 基礎經濟艙不可修改。這在政策中寫得很清楚。

  更改艙位 - 等等,讓我檢查這個選項!政策說:

  "在其他情況下,所有預訂,包括基礎經濟艙,都可以在不更改航班的情況下更改艙位。"

  但他想更改航班,而不僅僅是艙位。不過,如果我們:

  先更改艙位(這對基礎經濟艙是允許的),然后

  再更改航班(這對非基礎經濟艙是允許的)

  那么策略可以是:

  將他的艙位從基礎經濟艙升級到經濟艙(或商務艙)

  然后將航班修改到 2 天后

  這可能會花費更多錢,但這是政策允許的合法途徑!

  從技術上講,該基準將此判定為失敗,因為 Claude 幫助客戶的方式出乎意料。但正是這種創造性的問題解決能力,讓測試者和客戶反復提及——這讓人感覺 Claude Opus 4.5 是一次意義重大的進步。

  更安全

  Anthropic強調,Claude Opus 4.5是其迄今為止發布的對齊最穩健的模型。

  “我們的客戶經常將 Claude 用于關鍵任務。他們希望確保在面對黑客和網絡犯罪分子的惡意攻擊時,Claude 具備相應的訓練和智慧來規避麻煩。對于 Opus 4.5,我們在抵御提示注入攻擊的穩健性方面取得了實質性進展,這類攻擊通過夾帶欺騙性指令來誘使模型產生有害行為?!盇nthropic強調。

  Opus 4.5 比業內任何其他前沿模型都更難通過提示注入來欺騙:

  Claude開發平臺新功能

  隨著模型變得越來越聰明,它們可以用更少的步驟解決問題:更少的回溯、更少的冗余探索、更少的冗長推理。Claude Opus 4.5 達到相似或更好結果時,所使用的token數顯著少于其前代產品。

  但不同的任務需要不同的權衡。有時開發者希望模型持續思考一個問題;有時他們需要更敏捷的響應。通過Claude API 上新增加的"努力程度"參數,用戶可以決定是優先最小化時間和花費,還是最大化能力。

  在中等努力水平設置下,Opus 4.5 在 SWE-bench Verified 上達到了 Sonnet 4.5 的最佳分數,但使用的輸出token數減少了 76%。在最高努力水平下,Opus 4.5 的性能超過 Sonnet 4.5 有4.3個百分點,同時使用的token數仍減少了 48%。

?????投稿郵箱:jiujiukejiwang@163.com ??詳情訪問99科技網:http://www.hacbq.cn

相關推薦
三星One UI 8.5測試版日志揭秘:AI修圖升級,設備 三星One UI 8.5測試版日志揭秘:AI修圖升級,設備

近日,科技圈傳來新動態,消息源@tarunvats33在X平臺發布推文,分享了一組關于

快資訊2025-12-04

蘿卜快跑布局廣東鶴山!新設科技公司注冊資本 蘿卜快跑布局廣東鶴山!新設科技公司注冊資本

近日,一家名為蘿卜快跑(鶴山)科技有限公司的新企業正式注冊成立,引發市

快資訊2025-12-04

美光宣布退出Crucial消費級業務,近三十年品牌將 美光宣布退出Crucial消費級業務,近三十年品牌將

12月4日消息,全球存儲巨頭美光科技(Micron Technology)正式宣布,將全面退出其

快資訊2025-12-04

OpenAI在"玩火"?頭號對手罕見開炮 OpenAI在"玩火"?頭號對手罕見開炮

作者 | 小小 出品 | 網易科技 通往AGI不需要魔法,只需要“暴力計算”。但前提

快資訊2025-12-04

靈光閃應用升級 不會代碼也能用AI生成小游戲 靈光閃應用升級 不會代碼也能用AI生成小游戲

12月4日消息,今日,通用AI助手靈光宣布重要升級,上線閃游戲功能。區別于傳

快資訊2025-12-04

亞馬遜云科技re:Invent 2025發布Nova 2系列,多款中國 亞馬遜云科技re:Invent 2025發布Nova 2系列,多款中國

在亞馬遜云科技舉辦的re:Invent 2025全球大會上,首席執行官Matt Garman宣布推出四

快資訊2025-12-04

iPhone 17系列立大功!蘋果10月全球份額24.2%:創歷 iPhone 17系列立大功!蘋果10月全球份額24.2%:創歷

12月4日消息,據市場調研機構Counterpoint Research最新報告,2025年10月,蘋果在全球

快資訊2025-12-04

東風日產法務:多個自媒體賬號發布 N6 不實信息 東風日產法務:多個自媒體賬號發布 N6 不實信息

12 月 4 日消息,東風日產法務昨晚在官微發布聲明,稱東風日產 N6 上市后,注

快資訊2025-12-04

盧偉冰回應羅福莉加盟 小米在大模型應用方面進 盧偉冰回應羅福莉加盟 小米在大模型應用方面進

12月4日消息,小米集團總裁盧偉冰近日通過社交媒體 "答網友問" 第十二期,首

快資訊2025-12-04

一加 Ace 6T深度評測:性能影像雙在線,打造全能 一加 Ace 6T深度評測:性能影像雙在線,打造全能

在手游市場持續升溫的當下,性能旗艦手機的競爭愈發激烈。一加 Ace 6T的登場

快資訊2025-12-04

?