无码人妻精品一区二|京东快递查询快递单号|亚洲男人AV天堂午夜在|成人毛片18女人毛片免费看网站|人善交ZZZZXXXXX另类

當(dāng)大模型把題庫“刷爆”,紅杉中國推出一套全新AI基準(zhǔn)測試

2025-5-26 14:08| 發(fā)布者: 互聯(lián)網(wǎng)| 查看: 200| 評論: 0|來自: 第一財(cái)經(jīng)

摘要: 類似手機(jī)時代廠商發(fā)布新機(jī)需要“跑個分”,如今大模型廠商發(fā)布新產(chǎn)品后也會通過基準(zhǔn)測試(Benchmark)跑分對比,但隨著基礎(chǔ)模型的快速發(fā)展和AI Agent(智能體)進(jìn)入規(guī)?;瘧?yīng)用階段,被廣泛使用的基準(zhǔn)測試開始面臨一 ...

類似手機(jī)時代廠商發(fā)布新機(jī)需要“跑個分”,如今大模型廠商發(fā)布新產(chǎn)品后也會通過基準(zhǔn)測試(Benchmark)跑分對比,但隨著基礎(chǔ)模型的快速發(fā)展和AI Agent(智能體)進(jìn)入規(guī)?;瘧?yīng)用階段,被廣泛使用的基準(zhǔn)測試開始面臨一個日益尖銳的問題:真實(shí)反映AI的客觀能力變得越來越難。

5月26日,紅杉中國宣布推出一款全新的AI基準(zhǔn)測試工具xbench,由紅杉中國發(fā)起,聯(lián)合國內(nèi)外十余家高校和研究機(jī)構(gòu)的數(shù)十位博士研究生,采用雙軌評估體系和長青評估機(jī)制。

雙軌評估體系是指構(gòu)建多維度測評數(shù)據(jù)集,同時追蹤模型的理論能力上限與Agent的實(shí)際落地價值。長青評估機(jī)制是指動態(tài)的、持續(xù)更新的評估方法。此前行業(yè)模型進(jìn)行榜單成績對比時,會面臨“刷榜”質(zhì)疑。即靜態(tài)評估集會出現(xiàn)題目泄露問題,模型反復(fù)測試可以將分?jǐn)?shù)“刷”上去。

xbench最早是紅杉中國在2022年ChatGPT推出后,對AGI進(jìn)程和主流模型進(jìn)行的內(nèi)部月評與匯報(bào)工具。在建設(shè)和升級“私有題庫”的過程中,紅杉中國發(fā)現(xiàn)主流模型“刷爆”題目的速度越來越快,基準(zhǔn)測試的有效時間在急劇縮短。

另外,此次相關(guān)機(jī)構(gòu)同期提出垂直領(lǐng)域Agent的評測方法論,并構(gòu)建了面向招聘與營銷領(lǐng)域的垂類Agent評測框架。如今Agent行業(yè)正熱,包括自主規(guī)劃、信息收集、推理分析、總結(jié)歸納在內(nèi)的深度搜索能力是AI Agents通向AGI(通用人工智能)的核心能力之一,但這也給評估帶來挑戰(zhàn)。

AI在長文本處理、多模態(tài)、工具使用和推理方面的能力突破催化了AI Agent的爆炸式增長。與聊天機(jī)器人相比,Agent不僅可以解決單步問題,還可以交付完整任務(wù),從而提供生產(chǎn)力或商業(yè)價值。有價值的AI Agent評估需要與實(shí)際任務(wù)密切相關(guān),這已成為一種共識。一系列高質(zhì)量的評估集在工具使用、計(jì)算機(jī)使用、編碼和客戶服務(wù)等領(lǐng)域出現(xiàn),推動了Agent在這些各自領(lǐng)域的快速發(fā)展。然而,評估結(jié)果與 AI 在現(xiàn)實(shí)世界中創(chuàng)造經(jīng)濟(jì)價值的生產(chǎn)力之間仍然存在差距。為了適應(yīng)人工智能“下半場”的發(fā)展,構(gòu)建特定領(lǐng)域的Agent評估集至關(guān)重要,這需要與專業(yè)領(lǐng)域的生產(chǎn)力和商業(yè)價值保持一致。

Agent本身的特性也需要考慮,Agent應(yīng)用產(chǎn)品版本具有生命周期,本身迭代迅速,會不斷集成與開發(fā)新功能。且Agent接觸的外部環(huán)境也是動態(tài)變化的。即使是相同的題目,如果解題需要使用互聯(lián)網(wǎng)應(yīng)用等內(nèi)容快速更新的工具,在不同時間測試效果不同。因此,測試工具設(shè)計(jì)指標(biāo)需要追蹤Agent能力的持續(xù)增長。

據(jù)了解,紅杉推出xbench-DeepSearch評測集今年會側(cè)重關(guān)注具有思維鏈的多模態(tài)模型能否生成商用水平視頻,MCP工具大面積使用是否具有可信度問題,GUI Agents能否有效使用動態(tài)更新/未訓(xùn)練的應(yīng)用三個方向。