DeepSeek-Math-V2數(shù)學(xué)模型開源，成績(jī)碾壓OpenAI和谷歌同類模型

2025-12-02 06:23來源：Techweb編輯：張易川

掃一掃

分享文章到微信

掃一掃

關(guān)注99科技網(wǎng)微信公眾號(hào)

　　【TechWeb】12月1日消息，近日， DeepSeek在Hugging Face平臺(tái)正式開源了DeepSeek-Math-V2模型，這是全球首個(gè)達(dá)到國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽金牌水平的開源數(shù)學(xué)模型。該模型基于DeepSeek-V3.2-Exp-Base開發(fā)。

　　DeepSeek-Math-V2模型在國(guó)際數(shù)學(xué)奧林匹克IMO 2025模擬賽中解出5道題（共6題），在中國(guó)數(shù)學(xué)奧林匹克CMO 2024中獲得金牌級(jí)評(píng)價(jià)，更在被譽(yù)為“地獄難度”的普特南(Putnam)數(shù)學(xué)競(jìng)賽2024中取得了118/120的接近滿分成績(jī)，遠(yuǎn)超人類最高分90分。

　　“鯨魚回來了！” 這是AI開源社區(qū)在DeepSeek發(fā)布新模型后的熱烈反應(yīng)。

　　兩大創(chuàng)新，成績(jī)碾壓GPT-5-Thinking-High和Gemini 2.5-Pro

　　根據(jù)DeepSeek團(tuán)隊(duì)發(fā)布的論文，DeepSeekMath-V2的核心突破在于成功實(shí)現(xiàn)了“自我驗(yàn)證”的數(shù)學(xué)推理機(jī)制。

　　傳統(tǒng)的AI數(shù)學(xué)推理訓(xùn)練存在根本性局限——模型獎(jiǎng)勵(lì)基于最終答案的正確性，但這并不能保證推理過程的正確性或邏輯的嚴(yán)謹(jǐn)性。

　　DeepSeek研究人員在論文中明確指出：“正確答案并不保證推理過程正確”。

　　這種結(jié)果導(dǎo)向的訓(xùn)練方式，導(dǎo)致模型可能通過錯(cuò)誤的邏輯得出正確答案，成為“自信的騙子”。

　　DeepSeekMath-V2徹底改變了這一模式，轉(zhuǎn)向過程導(dǎo)向的訓(xùn)練方法。它不依賴大量的數(shù)學(xué)題答案數(shù)據(jù)，而是教會(huì)AI如何像數(shù)學(xué)家一樣嚴(yán)謹(jǐn)?shù)貙彶樽C明過程。

　　這種方法模擬了人類數(shù)學(xué)家的思考方式：寫幾步之后，停下來反思，發(fā)現(xiàn)漏洞就推翻重寫，直到自己挑不出毛病為止。

　　另一個(gè)大核心創(chuàng)新則是DeepSeekMath-V2構(gòu)建了一個(gè)多層次自我驗(yàn)證系統(tǒng)。

　　該系統(tǒng)由三個(gè)關(guān)鍵角色組成，形成了一個(gè)相互協(xié)作又相互制約的架構(gòu)。

　　“做題家”（證明生成器）負(fù)責(zé)解題和撰寫證明過程。與以往不同，它被訓(xùn)練成不僅要寫答案，還要進(jìn)行“自我評(píng)價(jià)”，誠(chéng)實(shí)指出自己可能出錯(cuò)的地方。

　　“鐵面判官”（證明驗(yàn)證器）是專門訓(xùn)練的評(píng)分模型，它不看答案對(duì)錯(cuò)，而是專門盯著證明過程挑刺。它將證明分為三個(gè)等級(jí)：1分（完全正確）、0.5分（有小瑕疵）、0分（有致命錯(cuò)誤）。

　　“判官的審計(jì)員”（元驗(yàn)證器）是最絕的一步，它專門檢查驗(yàn)證器是否在胡亂挑刺。如果驗(yàn)證器指出了一個(gè)不存在的錯(cuò)誤，它會(huì)被元驗(yàn)證器糾正。

　　通過這種精巧的架構(gòu)，DeepSeekMath-V2實(shí)現(xiàn)了真正的自我反思能力。

　　模型不再盲目相信自己的第一直覺，而是學(xué)會(huì)了懷疑、審視和批判性思維。

　　根據(jù)論文公開的數(shù)據(jù)，DeepSeekMath-V2在多項(xiàng)數(shù)學(xué)基準(zhǔn)測(cè)試中展現(xiàn)出統(tǒng)治級(jí)的實(shí)力。

　　在IMO-ProofBench基準(zhǔn)測(cè)試中，DeepSeekMath-V2在Basic子集上獲得了接近99%的驚人高分，顯著高于Gemini Deep Think的89%。

　　在更高級(jí)的Advanced子集上，DeepSeekMath-V2得分為61.9%，略低于Gemini Deep Think的65.7%，但仍展現(xiàn)出強(qiáng)大的競(jìng)爭(zhēng)力。

　　在與頂級(jí)模型的直接對(duì)比中，DeepSeekMath-V2在所有CNML級(jí)別問題類別上，包括代數(shù)、幾何、數(shù)論、組合學(xué)和不等式均持續(xù)優(yōu)于GPT-5-Thinking-High和Gemini 2.5-Pro。

　　在代數(shù)領(lǐng)域，DeepSeekMath-V2遠(yuǎn)超GPT-5-Thinking-High和Gemini 2.5-Pro；在幾何領(lǐng)域，其得分幾乎是Gemini 2.5-Pro的三倍。

　　更令人印象深刻的是，當(dāng)允許模型進(jìn)行“自我驗(yàn)證”，即生成答案后，自己挑毛病，然后帶著問題重新生成，證明的質(zhì)量分?jǐn)?shù)從初始的0.15（迭代1次）飆升到了0.27（迭代8次）。

　　開源社區(qū)沸騰

　　DeepSeekMath-V2的開源發(fā)布，在AI社區(qū)引發(fā)了強(qiáng)烈反響。

　　海外社區(qū)有評(píng)論稱“鯨魚終于回來了”，并指出DeepSeek以約10個(gè)百分點(diǎn)優(yōu)勢(shì)超越谷歌同類模型，超出預(yù)期。

　　在技術(shù)社區(qū)，用戶用更通俗的語言解讀這一突破：“DeepSeek換了個(gè)教法，死磕過程。結(jié)果對(duì)了，也必須看解題步驟，過程中只要有一步?jīng)]整明白，也不給糖吃。這就逼著AI必須要真懂，不能當(dāng)混子。”

　　還有用戶指出這一發(fā)布的時(shí)間點(diǎn)堪稱完美：“就在昨天，AI教父Ilya在訪談中提到，現(xiàn)在的AI就是個(gè)只會(huì)死記硬背的做題機(jī)器。僅僅不到24小時(shí)，DeepSeek就把新模型開源了。”

　　這一巧合被形容為“一次穿越時(shí)空的擊掌”，是DeepSeek對(duì)AI發(fā)展路徑的實(shí)質(zhì)性回應(yīng)。

　　不過，也有用戶提出了理性的擔(dān)憂：“自我糾錯(cuò)這套路，說得輕松其實(shí)難度不小啊，驗(yàn)證器要是本身就有問題呢？左手批右手的感覺。”

　　無論如何，大家都認(rèn)為DeepSeekMath-V2的開源具有重要的行業(yè)意義。

　　DeepSeekMath-V2采用Apache 2.0許可證，允許修改、重新用途和本地部署，為學(xué)術(shù)研究和商業(yè)應(yīng)用提供了極大便利。

　　這一開源降低了全球研究者的門檻，特別是在當(dāng)前谷歌和OpenAI都將他們的高分?jǐn)?shù)學(xué)模型嚴(yán)格限制在付費(fèi)或?qū)嶒?yàn)性訪問。

　　DeepSeekMath-V2的開源發(fā)布標(biāo)志著AI數(shù)學(xué)推理能力不再是大公司的專屬領(lǐng)域，而是成為全球研究者可以共同探索和推進(jìn)的開放領(lǐng)域。

　　Hugging Face聯(lián)合創(chuàng)始人兼Clement Delangue表示：這一發(fā)布是邁向AI真正民主化的一步。

　　用戶現(xiàn)在可以免費(fèi)使用“世界上最好的數(shù)學(xué)家之一的大腦”，而不必?fù)?dān)心公司或政府將其收回。

?????投稿郵箱：jiujiukejiwang@163.com ??詳情訪問99科技網(wǎng)：http://www.hacbq.cn

相關(guān)推薦

小米王化開SU7 MAX去武漢上任：一天開1200多公里

【TechWeb】12月1日消息，上個(gè)月，小米集團(tuán)人事變動(dòng)引發(fā)廣泛關(guān)注，原公關(guān)部總

快資訊2025-12-01

外賣大戰(zhàn)6個(gè)月燒掉近800億元

【TechWeb】12月1日消息，今年4月以來，京東、美團(tuán)、阿里在即時(shí)零售市場(chǎng)已經(jīng)鏖

快資訊2025-12-01

訊飛潮汐力攜AI利器亮相沃爾沃技術(shù)展，賦能汽車

在第五屆沃爾沃汽車亞太區(qū)供應(yīng)鏈可持續(xù)發(fā)展技術(shù)展上，一家專注于工業(yè)AI傳感

快資訊2025-12-01

蘇州工業(yè)無線網(wǎng)絡(luò)服務(wù)商哪家強(qiáng)？創(chuàng)云低時(shí)延與

在長(zhǎng)三角制造業(yè)智能化升級(jí)浪潮中，蘇州工業(yè)無線網(wǎng)絡(luò)領(lǐng)域涌現(xiàn)出兩家技術(shù)特色

快資訊2025-12-01

南卡Bolt開放式頭戴耳機(jī)：音質(zhì)舒適雙優(yōu)，穩(wěn)固性

在耳機(jī)市場(chǎng)不斷推陳出新的當(dāng)下，一款名為南卡Bolt的開放式頭戴藍(lán)牙耳機(jī)憑借

快資訊2025-12-01

對(duì)中國(guó)公民免簽同程旅行俄羅斯相關(guān)搜索量上漲

【TechWeb】12月1日消息，據(jù)央視新聞，自即日起至2026年9月14日（含）止，中國(guó)公

快資訊2025-12-01

AI泡沫首次被“刺破”：GPU十年都無法存活

12月1日消息，近日，Intel前CEO帕特·格爾辛格（Pat Gelsinger）公開“刺破”AI泡沫

快資訊2025-12-01

雷軍：小米汽車將開放“現(xiàn)車選購” 預(yù)計(jì)年底前

【TechWeb】12月1日消息，今天上午，小米創(chuàng)始人雷軍在社交平臺(tái)發(fā)文稱，小米汽

快資訊2025-12-01

快手X新周刊X捷達(dá)開啟“小店中國(guó)”探訪之旅，真

當(dāng)大眾消費(fèi)逐漸向理性轉(zhuǎn)變，消費(fèi)需求回歸真實(shí)品質(zhì)生活，品牌營(yíng)銷也更需立足

快資訊2025-12-01

華為Mate 80系列華強(qiáng)北行情：大存儲(chǔ)熱門配色溢價(jià)

華為Mate 80系列手機(jī)在華強(qiáng)北渠道的最新報(bào)價(jià)引發(fā)市場(chǎng)關(guān)注。不同存儲(chǔ)版本和配

快資訊2025-12-01

頭條資訊

推薦資訊