長沙仟茂科技有限公司財(cái)經(jīng)資訊 › 首頁 ›行業(yè)新聞 › 查看內(nèi)容

當(dāng)大模型把題庫“刷爆”，紅杉中國推出一套全新AI基準(zhǔn)測試

2025-5-26 14:08| 發(fā)布者: 互聯(lián)網(wǎng)| 查看: 200| 評論: 0|來自: 第一財(cái)經(jīng)

摘要: 類似手機(jī)時代廠商發(fā)布新機(jī)需要“跑個分”，如今大模型廠商發(fā)布新產(chǎn)品后也會通過基準(zhǔn)測試（Benchmark）跑分對比，但隨著基礎(chǔ)模型的快速發(fā)展和AI Agent（智能體）進(jìn)入規(guī)?；瘧?yīng)用階段，被廣泛使用的基準(zhǔn)測試開始面臨一 ...

類似手機(jī)時代廠商發(fā)布新機(jī)需要“跑個分”，如今大模型廠商發(fā)布新產(chǎn)品后也會通過基準(zhǔn)測試（Benchmark）跑分對比，但隨著基礎(chǔ)模型的快速發(fā)展和AI Agent（智能體）進(jìn)入規(guī)?；瘧?yīng)用階段，被廣泛使用的基準(zhǔn)測試開始面臨一個日益尖銳的問題：真實(shí)反映AI的客觀能力變得越來越難。

5月26日，紅杉中國宣布推出一款全新的AI基準(zhǔn)測試工具xbench，由紅杉中國發(fā)起，聯(lián)合國內(nèi)外十余家高校和研究機(jī)構(gòu)的數(shù)十位博士研究生，采用雙軌評估體系和長青評估機(jī)制。

雙軌評估體系是指構(gòu)建多維度測評數(shù)據(jù)集，同時追蹤模型的理論能力上限與Agent的實(shí)際落地價值。長青評估機(jī)制是指動態(tài)的、持續(xù)更新的評估方法。此前行業(yè)模型進(jìn)行榜單成績對比時，會面臨“刷榜”質(zhì)疑。即靜態(tài)評估集會出現(xiàn)題目泄露問題，模型反復(fù)測試可以將分?jǐn)?shù)“刷”上去。

xbench最早是紅杉中國在2022年ChatGPT推出后，對AGI進(jìn)程和主流模型進(jìn)行的內(nèi)部月評與匯報(bào)工具。在建設(shè)和升級“私有題庫”的過程中，紅杉中國發(fā)現(xiàn)主流模型“刷爆”題目的速度越來越快，基準(zhǔn)測試的有效時間在急劇縮短。

另外，此次相關(guān)機(jī)構(gòu)同期提出垂直領(lǐng)域Agent的評測方法論，并構(gòu)建了面向招聘與營銷領(lǐng)域的垂類Agent評測框架。如今Agent行業(yè)正熱，包括自主規(guī)劃、信息收集、推理分析、總結(jié)歸納在內(nèi)的深度搜索能力是AI Agents通向AGI（通用人工智能）的核心能力之一，但這也給評估帶來挑戰(zhàn)。

AI在長文本處理、多模態(tài)、工具使用和推理方面的能力突破催化了AI Agent的爆炸式增長。與聊天機(jī)器人相比，Agent不僅可以解決單步問題，還可以交付完整任務(wù)，從而提供生產(chǎn)力或商業(yè)價值。有價值的AI Agent評估需要與實(shí)際任務(wù)密切相關(guān)，這已成為一種共識。一系列高質(zhì)量的評估集在工具使用、計(jì)算機(jī)使用、編碼和客戶服務(wù)等領(lǐng)域出現(xiàn)，推動了Agent在這些各自領(lǐng)域的快速發(fā)展。然而，評估結(jié)果與 AI 在現(xiàn)實(shí)世界中創(chuàng)造經(jīng)濟(jì)價值的生產(chǎn)力之間仍然存在差距。為了適應(yīng)人工智能“下半場”的發(fā)展，構(gòu)建特定領(lǐng)域的Agent評估集至關(guān)重要，這需要與專業(yè)領(lǐng)域的生產(chǎn)力和商業(yè)價值保持一致。

Agent本身的特性也需要考慮，Agent應(yīng)用產(chǎn)品版本具有生命周期，本身迭代迅速，會不斷集成與開發(fā)新功能。且Agent接觸的外部環(huán)境也是動態(tài)變化的。即使是相同的題目，如果解題需要使用互聯(lián)網(wǎng)應(yīng)用等內(nèi)容快速更新的工具，在不同時間測試效果不同。因此，測試工具設(shè)計(jì)指標(biāo)需要追蹤Agent能力的持續(xù)增長。

據(jù)了解，紅杉推出xbench-DeepSearch評測集今年會側(cè)重關(guān)注具有思維鏈的多模態(tài)模型能否生成商用水平視頻，MCP工具大面積使用是否具有可信度問題，GUI Agents能否有效使用動態(tài)更新/未訓(xùn)練的應(yīng)用三個方向。

鮮花

握手

雷人

路過

雞蛋

上一篇：“母乳研究國家隊(duì)”再傳捷報(bào)！飛鶴牽頭“十四五”重點(diǎn)專項(xiàng)獲階段性新突破 ...下一篇：IP經(jīng)濟(jì)概念多股漲停，又一家潮玩公司52TOYS沖刺港股

无码人妻精品一区二|京东快递查询快递单号|亚洲男人AV天堂午夜在|成人毛片18女人毛片免费看网站|人善交ZZZZXXXXX另类

當(dāng)大模型把題庫“刷爆”，紅杉中國推出一套全新AI基準(zhǔn)測試

相關(guān)分類

无码人妻精品一区二|京东快递查询快递单号|亚洲男人AV天堂午夜在|成人毛片18女人毛片免费看网站|人善交ZZZZXXXXX另类

當(dāng)大模型把題庫“刷爆”，紅杉中國推出一套全新AI基準(zhǔn)測試

相關(guān)分類

當(dāng)大模型把題庫“刷爆”，紅杉中國推出一套全新AI基準(zhǔn)測試