長沙仟茂科技有限公司財(cái)經(jīng)資訊 › 首頁 ›行業(yè)新聞 › 查看內(nèi)容

火山引擎發(fā)布深度思考模型，豆包發(fā)力“看圖思考”

2025-4-17 21:37| 發(fā)布者: 互聯(lián)網(wǎng)| 查看: 598| 評論: 0|來自: 第一財(cái)經(jīng)

摘要: 4月17日，面向企業(yè)市場，字節(jié)跳動旗下火山引擎發(fā)布豆包1.5?深度思考模型，同步升級文生圖模型 3.0、視覺理解模型，推出 OS Agent 解決方案及AI云原生推理套件，幫助企業(yè)客戶構(gòu)建與部署Agent（智能體）應(yīng)用。技術(shù)邏 ...

4月17日，面向企業(yè)市場，字節(jié)跳動旗下火山引擎發(fā)布豆包1.5?深度思考模型，同步升級文生圖模型 3.0、視覺理解模型，推出 OS Agent 解決方案及AI云原生推理套件，幫助企業(yè)客戶構(gòu)建與部署Agent（智能體）應(yīng)用。

技術(shù)邏輯上，Agent是此次豆包發(fā)布系列產(chǎn)品的重點(diǎn)，而深度思考模型是其技術(shù)底座。采訪中，火山引擎總裁譚待對第一財(cái)經(jīng)記者表示，聊天和信息處理只是AI中的一小部分，要真正為各行各業(yè)帶來變革，Agent是必經(jīng)之路。

而深度思考模型正是構(gòu)建Agent的基礎(chǔ)，譚待稱，模型要有能力做好思考、計(jì)劃和反思，且一定要支持多模態(tài)，就像人類具備視覺和聽覺一樣，Agent才能更好地處理復(fù)雜任務(wù)。

技術(shù)報(bào)告顯示，豆包深度思考模型采用MoE架構(gòu)，總參數(shù)為200B，激活參數(shù)僅20B。該模型還上線了一款深度思考視覺版，具備視覺推理能力，能夠像人類一樣對看到的事物進(jìn)行聯(lián)想和思考。在實(shí)際案例中，該模型可以看懂復(fù)雜的企業(yè)項(xiàng)目管理流程圖表，快速定位關(guān)鍵信息；也可以結(jié)合地貌特征分析航拍圖，判斷區(qū)域開發(fā)可行性。競品對比環(huán)節(jié)，根據(jù)數(shù)學(xué)推理AIME 2024 測試，豆包1.5?深度思考模型得分追平OpenAI o3-mini-high，編程競賽和科學(xué)推理測試成績接近o1。

多模態(tài)深度思考模型的基礎(chǔ)之上，譚待認(rèn)為Agent需要良好的架構(gòu)和工具去操作數(shù)字世界和物理世界。此次火山推出的OS Agent解決方案便現(xiàn)場演示了由Agent操作瀏覽器搜索商品頁、實(shí)現(xiàn)iPhone比價(jià)的任務(wù)。

模型與工具加速Agent落地的同時(shí)，Agent也會帶來更大量的模型推理消耗。據(jù)火山引擎披露，截至2025年3月底，豆包大模型日均 tokens 調(diào)用量已達(dá)到12.7萬億，較去年5月發(fā)布時(shí)增長上百倍。為應(yīng)對大規(guī)模推理需求，火山引擎打造AI云原生ServingKit 推理套件，GPU 消耗相比傳統(tǒng)方案降低80%。

趨勢之下，行業(yè)也開始出現(xiàn)Agent泛濫的現(xiàn)象，有廠商自稱部署近5000個(gè)Agent。譚待認(rèn)為Agent定義需要更新——簡單完成打油詩等任務(wù)的已不能稱為 Agent。從定性角度來看，Agent 應(yīng)能完成專業(yè)度較高、耗時(shí)較長的完整任務(wù)；從技術(shù)實(shí)現(xiàn)角度來看，如果沒有運(yùn)用思考模型、缺乏反思和規(guī)劃能力，也很難被認(rèn)定為 Agent。

隨著技術(shù)落地，今年行業(yè)對Agent的定義將會更加清晰，譚待認(rèn)為或許會像自動駕駛分級一樣，對Agent也進(jìn)行自L1至L4的分級。但整體來看，深度思考模型是構(gòu)建Agent的基礎(chǔ)，模型要有能力做好思考、計(jì)劃和反思，并且一定要支持多模態(tài)，就像人類具備視覺和聽覺一樣。

鮮花

握手

雷人

路過

雞蛋

上一篇：曉數(shù)點(diǎn)丨新增馬來西亞，已有27國與中國全面互免簽證下一篇：黃金年內(nèi)漲幅逼近30%！亞洲時(shí)段買盤空前強(qiáng)勁

无码人妻精品一区二|京东快递查询快递单号|亚洲男人AV天堂午夜在|成人毛片18女人毛片免费看网站|人善交ZZZZXXXXX另类

火山引擎發(fā)布深度思考模型，豆包發(fā)力“看圖思考”

相關(guān)分類