長(zhǎng)沙仟茂科技有限公司財(cái)經(jīng)資訊 › 首頁(yè) ›科技 › 查看內(nèi)容

AI刷題強(qiáng)到可怕？挑戰(zhàn)高考數(shù)學(xué)卷，DeepSeek-R1、騰訊混元T1、Grok 3等十大模型測(cè)評(píng)來(lái) ...

2025-6-11 02:30| 發(fā)布者: 仟茂傳媒| 查看: 1277| 評(píng)論: 0|來(lái)自: 和訊財(cái)經(jīng)

摘要: 《每日經(jīng)濟(jì)新聞》記者選取今年的全國(guó)新課標(biāo)數(shù)學(xué)I卷作為考題，對(duì)DeepSeek-R1、騰訊元寶、OpenAI的o3、谷歌的Gemini2.5Pro和xAI的Grok3等十款A(yù)I推理大模型進(jìn)行了測(cè)評(píng)，以檢驗(yàn)當(dāng)今主流AI推理大模型的數(shù)學(xué)能力。但每經(jīng)記 ...

2025年高考大幕雖已落下，但關(guān)于數(shù)學(xué)科目難度的討論熱度不減。

《每日經(jīng)濟(jì)新聞》記者（以下簡(jiǎn)稱“每經(jīng)記者”）選取今年的全國(guó)新課標(biāo)數(shù)學(xué)I卷作為考題，對(duì)DeepSeek-R1、騰訊元寶（混元T1）、OpenAI的o3、谷歌的Gemini 2.5 Pro和xAI的Grok3等十款A(yù)I推理大模型進(jìn)行了測(cè)評(píng)，以檢驗(yàn)當(dāng)今主流AI推理大模型的數(shù)學(xué)能力。

測(cè)評(píng)結(jié)果顯示，國(guó)產(chǎn)大模型DeepSeek-R1與騰訊混元T1以零錯(cuò)誤并列榜首。而被馬斯克稱為“地表最強(qiáng)AI”的Grok 3卻遭遇“滑鐵盧”，排名倒數(shù)第三。

測(cè)評(píng)標(biāo)準(zhǔn)

本次測(cè)評(píng)以2025年全國(guó)新課標(biāo)數(shù)學(xué)I卷（總分150分）作為考題。但每經(jīng)記者在測(cè)試中發(fā)現(xiàn)，部分AI推理模型以“重要考試期間”為由拒絕對(duì)包含試題的圖片進(jìn)行識(shí)別和解答。

為了讓所有參評(píng)大模型站在同一起跑線，測(cè)評(píng)移除了試卷中所有需要分析圖形和圖表的題目，形成一份有效總分為117分的標(biāo)準(zhǔn)化試卷。

同時(shí)，對(duì)于谷歌Gemini 2.5 Pro等沒(méi)有這一限制的推理模型，仍將以150分的完整試卷進(jìn)行測(cè)試，旨在測(cè)試推理大模型所能達(dá)到的最高水平。

扣分標(biāo)準(zhǔn)上，每經(jīng)記者在選擇題和填空題上都遵循了高考評(píng)卷的扣分標(biāo)準(zhǔn)，但對(duì)于解答題，本次測(cè)評(píng)只根據(jù)結(jié)果計(jì)算得分，不對(duì)過(guò)程打分。

需要說(shuō)明的是，在此次測(cè)試中，每款推理大模型只進(jìn)行單次測(cè)試，得分也僅反映單次測(cè)試的結(jié)果。

DeepSeek-R1和騰訊混元T1并列第一

在排除了圖形/圖表題的117分試卷測(cè)試中，DeepSeek-R1與騰訊混元T1展現(xiàn)出了絕對(duì)的優(yōu)勢(shì)，以零錯(cuò)誤的完美表現(xiàn)，取得了117分的滿分成績(jī)，并列第一。這表明，在代數(shù)計(jì)算和函數(shù)題等題型解答上，其能力已經(jīng)達(dá)到了極高的水準(zhǔn)和穩(wěn)定性。

訊飛星火X1以112分的成績(jī)緊隨其后。相較于DeepSeek-R1與騰訊混元T1這兩款大模型，訊飛星火X1多錯(cuò)了一道填空題。這道題的正確答案是“±2”，而訊飛星火X1給出的答案是“2”。實(shí)際上，該模型的推理過(guò)程沒(méi)有問(wèn)題，認(rèn)為“2”和“-2”都滿足題目條件，但陷入自我懷疑，最終只給出了答案“2”。

訊飛星火X1的推理過(guò)程

其他得分超過(guò)100分的還有Gemini 2.5 Pro（109分）、o3（107分）、阿里千問(wèn)Qwen3（106分）和豆包深度思考模式（104分）。在分?jǐn)?shù)占比最高的解答題上，Gemini 2.5 Pro和o3均有失誤，其中一道大題僅有部分正確，而阿里千問(wèn)Qwen3和豆包深度思考模式均拿下滿分。

Grok 3慘遭“滑鐵盧”，排名倒數(shù)第三

在本次參評(píng)的所有AI推理大模型中，如果說(shuō)有誰(shuí)的結(jié)果最令人意外，那無(wú)疑是馬斯克旗下xAI公司開發(fā)的、被馬斯克稱為“地表最強(qiáng)AI”的Grok 3。

Grok在發(fā)布之初就被市場(chǎng)寄予厚望，被認(rèn)為是最有潛力挑戰(zhàn)GPT和Gemini霸主地位的“黑馬”。馬斯克多次暗示，Grok的目標(biāo)是成為最強(qiáng)大的AI。

然而，Grok 3此次的表現(xiàn)可以說(shuō)是遭遇了“滑鐵盧”。在117分的試題測(cè)試中，Grok 3僅獲得91分，在10個(gè)參與測(cè)試的推理大模型中排名倒數(shù)第三。

深入分析其答卷，每經(jīng)記者發(fā)現(xiàn)，Grok 3失分的一個(gè)獨(dú)特且關(guān)鍵的原因：它似乎無(wú)法正確理解多選題這類題型。

測(cè)試過(guò)程顯示，即使在記者提示題目為多選題的情況下，Grok 3也“頑固”地只給出一個(gè)它認(rèn)為的最優(yōu)解，導(dǎo)致只能得到部分分?jǐn)?shù)。

排名倒數(shù)第二的是智譜清言推理模式，在117分試卷的測(cè)試中得分為78分。

實(shí)際上，該模型在多道題目的推理過(guò)程中都找到了正確答案，但是往往會(huì)在最后一步出現(xiàn)自我懷疑導(dǎo)致邏輯崩潰，陷入循環(huán)，最終功虧一簣，白白丟了很多分。

智譜清言推理模式解答過(guò)程截圖

排在最末尾的是Kimi k1.5，該模型在最后兩道壓軸大題上栽了大跟頭，損失了大量的分?jǐn)?shù)。

綜合所有測(cè)試情況來(lái)看，在處理有固定步驟和嚴(yán)密邏輯的數(shù)學(xué)問(wèn)題上，AI推理大模型已經(jīng)具備很強(qiáng)的能力。但在涉及抽象和創(chuàng)新思維的題目上，目前的大模型還存在一定的局限性。

記者|岳楚鵬高涵

編輯|金冥羽蘭素英蓋源源

校對(duì)|盧祥勇

封面圖片來(lái)源：視覺(jué)中國(guó)

｜每日經(jīng)濟(jì)新聞 nbdnews 原創(chuàng)文章｜

未經(jīng)許可禁止轉(zhuǎn)載、摘編、復(fù)制及鏡像等使用

每日經(jīng)濟(jì)新聞

（責(zé)任編輯：郭健東）

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn)，與和訊網(wǎng)無(wú)關(guān)。和訊網(wǎng)站對(duì)文中陳述、觀點(diǎn)判斷保持中立，不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考，并請(qǐng)自行承擔(dān)全部責(zé)任。郵箱：news_center@staff.hexun.com

鮮花

握手

雷人

路過(guò)

雞蛋

收藏邀請(qǐng)

上一篇：馬斯克星鏈衛(wèi)星大批墜落！下一篇：頭部AI公司紛紛布局CVC 產(chǎn)業(yè)鏈整合或?qū)⒓铀?/a>

相關(guān)分類

无码人妻精品一区二|京东快递查询快递单号|亚洲男人AV天堂午夜在|成人毛片18女人毛片免费看网站|人善交ZZZZXXXXX另类

AI刷題強(qiáng)到可怕？挑戰(zhàn)高考數(shù)學(xué)卷，DeepSeek-R1、騰訊混元T1、Grok 3等十大模型測(cè)評(píng)來(lái) ...

无码人妻精品一区二|京东快递查询快递单号|亚洲男人AV天堂午夜在|成人毛片18女人毛片免费看网站|人善交ZZZZXXXXX另类

AI刷題強(qiáng)到可怕？挑戰(zhàn)高考數(shù)學(xué)卷，DeepSeek-R1、騰訊混元T1、Grok 3等十大模型測(cè)評(píng)來(lái) ...

相關(guān)分類

AI刷題強(qiáng)到可怕？挑戰(zhàn)高考數(shù)學(xué)卷，DeepSeek-R1、騰訊混元T1、Grok 3等十大模型測(cè)評(píng)來(lái) ...