亚洲欧美一区二区精品久久久_在线观看欧美日韩电影_好了av在线_成人丝袜18视频在线观看_亚洲欧美日韩精品久久久_**女人18毛片一区二区_欧美一级日韩免费不卡_av免费网站观看_99久久久久国产精品_色综合天天综合网天天狠天天 _91社区在线高清_黑丝美女一区二区

主頁 > 快資訊 > 正文

DeepSeek-Math-V2數(shù)學(xué)模型開源,成績(jī)碾壓OpenAI和谷歌同類模型

2025-12-02 06:23來源:Techweb編輯:張易川

掃一掃

分享文章到微信

掃一掃

關(guān)注99科技網(wǎng)微信公眾號(hào)

  【TechWeb】12月1日消息,近日, DeepSeek在Hugging Face平臺(tái)正式開源了DeepSeek-Math-V2模型,這是全球首個(gè)達(dá)到國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽金牌水平的開源數(shù)學(xué)模型。該模型基于DeepSeek-V3.2-Exp-Base開發(fā)。

  DeepSeek-Math-V2模型在國(guó)際數(shù)學(xué)奧林匹克IMO 2025模擬賽中解出5道題(共6題),在中國(guó)數(shù)學(xué)奧林匹克CMO 2024中獲得金牌級(jí)評(píng)價(jià),更在被譽(yù)為“地獄難度”的普特南(Putnam)數(shù)學(xué)競(jìng)賽2024中取得了118/120的接近滿分成績(jī),遠(yuǎn)超人類最高分90分。

  “鯨魚回來了!” 這是AI開源社區(qū)在DeepSeek發(fā)布新模型后的熱烈反應(yīng)。

  兩大創(chuàng)新,成績(jī)碾壓GPT-5-Thinking-High和Gemini 2.5-Pro

  根據(jù)DeepSeek團(tuán)隊(duì)發(fā)布的論文,DeepSeekMath-V2的核心突破在于成功實(shí)現(xiàn)了“自我驗(yàn)證”的數(shù)學(xué)推理機(jī)制。

  傳統(tǒng)的AI數(shù)學(xué)推理訓(xùn)練存在根本性局限——模型獎(jiǎng)勵(lì)基于最終答案的正確性,但這并不能保證推理過程的正確性或邏輯的嚴(yán)謹(jǐn)性。

  DeepSeek研究人員在論文中明確指出:“正確答案并不保證推理過程正確”。

  這種結(jié)果導(dǎo)向的訓(xùn)練方式,導(dǎo)致模型可能通過錯(cuò)誤的邏輯得出正確答案,成為“自信的騙子”。

  DeepSeekMath-V2徹底改變了這一模式,轉(zhuǎn)向過程導(dǎo)向的訓(xùn)練方法。它不依賴大量的數(shù)學(xué)題答案數(shù)據(jù),而是教會(huì)AI如何像數(shù)學(xué)家一樣嚴(yán)謹(jǐn)?shù)貙彶樽C明過程。

  這種方法模擬了人類數(shù)學(xué)家的思考方式:寫幾步之后,停下來反思,發(fā)現(xiàn)漏洞就推翻重寫,直到自己挑不出毛病為止。

  另一個(gè)大核心創(chuàng)新則是DeepSeekMath-V2構(gòu)建了一個(gè)多層次自我驗(yàn)證系統(tǒng)。

  該系統(tǒng)由三個(gè)關(guān)鍵角色組成,形成了一個(gè)相互協(xié)作又相互制約的架構(gòu)。

  “做題家”(證明生成器) 負(fù)責(zé)解題和撰寫證明過程。與以往不同,它被訓(xùn)練成不僅要寫答案,還要進(jìn)行“自我評(píng)價(jià)”,誠(chéng)實(shí)指出自己可能出錯(cuò)的地方。

  “鐵面判官”(證明驗(yàn)證器) 是專門訓(xùn)練的評(píng)分模型,它不看答案對(duì)錯(cuò),而是專門盯著證明過程挑刺。它將證明分為三個(gè)等級(jí):1分(完全正確)、0.5分(有小瑕疵)、0分(有致命錯(cuò)誤)。

  “判官的審計(jì)員”(元驗(yàn)證器) 是最絕的一步,它專門檢查驗(yàn)證器是否在胡亂挑刺。如果驗(yàn)證器指出了一個(gè)不存在的錯(cuò)誤,它會(huì)被元驗(yàn)證器糾正。

  通過這種精巧的架構(gòu),DeepSeekMath-V2實(shí)現(xiàn)了真正的自我反思能力。

  模型不再盲目相信自己的第一直覺,而是學(xué)會(huì)了懷疑、審視和批判性思維。

  根據(jù)論文公開的數(shù)據(jù),DeepSeekMath-V2在多項(xiàng)數(shù)學(xué)基準(zhǔn)測(cè)試中展現(xiàn)出統(tǒng)治級(jí)的實(shí)力。

  在IMO-ProofBench基準(zhǔn)測(cè)試中,DeepSeekMath-V2在Basic子集上獲得了接近99%的驚人高分,顯著高于Gemini Deep Think的89%。

  在更高級(jí)的Advanced子集上,DeepSeekMath-V2得分為61.9%,略低于Gemini Deep Think的65.7%,但仍展現(xiàn)出強(qiáng)大的競(jìng)爭(zhēng)力。

  在與頂級(jí)模型的直接對(duì)比中,DeepSeekMath-V2在所有CNML級(jí)別問題類別上,包括代數(shù)、幾何、數(shù)論、組合學(xué)和不等式均持續(xù)優(yōu)于GPT-5-Thinking-High和Gemini 2.5-Pro。

  在代數(shù)領(lǐng)域,DeepSeekMath-V2遠(yuǎn)超GPT-5-Thinking-High和Gemini 2.5-Pro;在幾何領(lǐng)域,其得分幾乎是Gemini 2.5-Pro的三倍。

  更令人印象深刻的是,當(dāng)允許模型進(jìn)行“自我驗(yàn)證”,即生成答案后,自己挑毛病,然后帶著問題重新生成,證明的質(zhì)量分?jǐn)?shù)從初始的0.15(迭代1次)飆升到了0.27(迭代8次)。

  開源社區(qū)沸騰

  DeepSeekMath-V2的開源發(fā)布,在AI社區(qū)引發(fā)了強(qiáng)烈反響。

  海外社區(qū)有評(píng)論稱“鯨魚終于回來了”,并指出DeepSeek以約10個(gè)百分點(diǎn)優(yōu)勢(shì)超越谷歌同類模型,超出預(yù)期。

  在技術(shù)社區(qū),用戶用更通俗的語言解讀這一突破:“DeepSeek換了個(gè)教法,死磕過程。結(jié)果對(duì)了,也必須看解題步驟,過程中只要有一步?jīng)]整明白,也不給糖吃。這就逼著AI必須要真懂,不能當(dāng)混子。”

  還有用戶指出這一發(fā)布的時(shí)間點(diǎn)堪稱完美:“就在昨天,AI教父Ilya在訪談中提到,現(xiàn)在的AI就是個(gè)只會(huì)死記硬背的做題機(jī)器。僅僅不到24小時(shí),DeepSeek就把新模型開源了。”

  這一巧合被形容為“一次穿越時(shí)空的擊掌”,是DeepSeek對(duì)AI發(fā)展路徑的實(shí)質(zhì)性回應(yīng)。

  不過,也有用戶提出了理性的擔(dān)憂:“自我糾錯(cuò)這套路,說得輕松其實(shí)難度不小啊,驗(yàn)證器要是本身就有問題呢?左手批右手的感覺。”

  無論如何,大家都認(rèn)為DeepSeekMath-V2的開源具有重要的行業(yè)意義。

  DeepSeekMath-V2采用Apache 2.0許可證,允許修改、重新用途和本地部署,為學(xué)術(shù)研究和商業(yè)應(yīng)用提供了極大便利。

  這一開源降低了全球研究者的門檻,特別是在當(dāng)前谷歌和OpenAI都將他們的高分?jǐn)?shù)學(xué)模型嚴(yán)格限制在付費(fèi)或?qū)嶒?yàn)性訪問。

  DeepSeekMath-V2的開源發(fā)布標(biāo)志著AI數(shù)學(xué)推理能力不再是大公司的專屬領(lǐng)域,而是成為全球研究者可以共同探索和推進(jìn)的開放領(lǐng)域。

  Hugging Face聯(lián)合創(chuàng)始人兼Clement Delangue表示:這一發(fā)布是邁向AI真正民主化的一步。

  用戶現(xiàn)在可以免費(fèi)使用“世界上最好的數(shù)學(xué)家之一的大腦”,而不必?fù)?dān)心公司或政府將其收回。

?????投稿郵箱:jiujiukejiwang@163.com ??詳情訪問99科技網(wǎng):http://www.hacbq.cn

相關(guān)推薦
小米王化開SU7 MAX去武漢上任:一天開1200多公里 小米王化開SU7 MAX去武漢上任:一天開1200多公里

【TechWeb】12月1日消息,上個(gè)月,小米集團(tuán)人事變動(dòng)引發(fā)廣泛關(guān)注,原公關(guān)部總

快資訊2025-12-01

外賣大戰(zhàn)6個(gè)月燒掉近800億元 外賣大戰(zhàn)6個(gè)月燒掉近800億元

【TechWeb】12月1日消息,今年4月以來,京東、美團(tuán)、阿里在即時(shí)零售市場(chǎng)已經(jīng)鏖

快資訊2025-12-01

訊飛潮汐力攜AI利器亮相沃爾沃技術(shù)展,賦能汽車 訊飛潮汐力攜AI利器亮相沃爾沃技術(shù)展,賦能汽車

在第五屆沃爾沃汽車亞太區(qū)供應(yīng)鏈可持續(xù)發(fā)展技術(shù)展上,一家專注于工業(yè)AI傳感

快資訊2025-12-01

蘇州工業(yè)無線網(wǎng)絡(luò)服務(wù)商哪家強(qiáng)?創(chuàng)云低時(shí)延與 蘇州工業(yè)無線網(wǎng)絡(luò)服務(wù)商哪家強(qiáng)?創(chuàng)云低時(shí)延與

在長(zhǎng)三角制造業(yè)智能化升級(jí)浪潮中,蘇州工業(yè)無線網(wǎng)絡(luò)領(lǐng)域涌現(xiàn)出兩家技術(shù)特色

快資訊2025-12-01

南卡Bolt開放式頭戴耳機(jī):音質(zhì)舒適雙優(yōu),穩(wěn)固性 南卡Bolt開放式頭戴耳機(jī):音質(zhì)舒適雙優(yōu),穩(wěn)固性

在耳機(jī)市場(chǎng)不斷推陳出新的當(dāng)下,一款名為南卡Bolt的開放式頭戴藍(lán)牙耳機(jī)憑借

快資訊2025-12-01

對(duì)中國(guó)公民免簽 同程旅行俄羅斯相關(guān)搜索量上漲 對(duì)中國(guó)公民免簽 同程旅行俄羅斯相關(guān)搜索量上漲

【TechWeb】12月1日消息,據(jù)央視新聞,自即日起至2026年9月14日(含)止,中國(guó)公

快資訊2025-12-01

AI泡沫首次被“刺破”:GPU十年都無法存活 AI泡沫首次被“刺破”:GPU十年都無法存活

12月1日消息,近日,Intel前CEO帕特·格爾辛格(Pat Gelsinger)公開“刺破”AI泡沫

快資訊2025-12-01

雷軍:小米汽車將開放“現(xiàn)車選購” 預(yù)計(jì)年底前 雷軍:小米汽車將開放“現(xiàn)車選購” 預(yù)計(jì)年底前

【TechWeb】12月1日消息,今天上午,小米創(chuàng)始人雷軍在社交平臺(tái)發(fā)文稱,小米汽

快資訊2025-12-01

快手X新周刊X捷達(dá)開啟“小店中國(guó)”探訪之旅,真 快手X新周刊X捷達(dá)開啟“小店中國(guó)”探訪之旅,真

當(dāng)大眾消費(fèi)逐漸向理性轉(zhuǎn)變,消費(fèi)需求回歸真實(shí)品質(zhì)生活,品牌營(yíng)銷也更需立足

快資訊2025-12-01

華為Mate 80系列華強(qiáng)北行情:大存儲(chǔ)熱門配色溢價(jià) 華為Mate 80系列華強(qiáng)北行情:大存儲(chǔ)熱門配色溢價(jià)

華為Mate 80系列手機(jī)在華強(qiáng)北渠道的最新報(bào)價(jià)引發(fā)市場(chǎng)關(guān)注。不同存儲(chǔ)版本和配

快資訊2025-12-01

?