无码人妻精品一区二|京东快递查询快递单号|亚洲男人AV天堂午夜在|成人毛片18女人毛片免费看网站|人善交ZZZZXXXXX另类

火山引擎發(fā)布深度思考模型,豆包發(fā)力“看圖思考”

2025-4-17 21:37| 發(fā)布者: 互聯(lián)網(wǎng)| 查看: 598| 評論: 0|來自: 第一財(cái)經(jīng)

摘要: 4月17日,面向企業(yè)市場,字節(jié)跳動旗下火山引擎發(fā)布豆包1.5?深度思考模型,同步升級文生圖模型 3.0、視覺理解模型,推出 OS Agent 解決方案及AI云原生推理套件,幫助企業(yè)客戶構(gòu)建與部署Agent(智能體)應(yīng)用。 技術(shù)邏 ...

4月17日,面向企業(yè)市場,字節(jié)跳動旗下火山引擎發(fā)布豆包1.5?深度思考模型,同步升級文生圖模型 3.0、視覺理解模型,推出 OS Agent 解決方案及AI云原生推理套件,幫助企業(yè)客戶構(gòu)建與部署Agent(智能體)應(yīng)用。

技術(shù)邏輯上,Agent是此次豆包發(fā)布系列產(chǎn)品的重點(diǎn),而深度思考模型是其技術(shù)底座。采訪中,火山引擎總裁譚待對第一財(cái)經(jīng)記者表示,聊天和信息處理只是AI中的一小部分,要真正為各行各業(yè)帶來變革,Agent是必經(jīng)之路。

而深度思考模型正是構(gòu)建Agent的基礎(chǔ),譚待稱,模型要有能力做好思考、計(jì)劃和反思,且一定要支持多模態(tài),就像人類具備視覺和聽覺一樣,Agent才能更好地處理復(fù)雜任務(wù)。

技術(shù)報(bào)告顯示,豆包深度思考模型采用MoE架構(gòu),總參數(shù)為200B,激活參數(shù)僅20B。該模型還上線了一款深度思考視覺版,具備視覺推理能力,能夠像人類一樣對看到的事物進(jìn)行聯(lián)想和思考。在實(shí)際案例中,該模型可以看懂復(fù)雜的企業(yè)項(xiàng)目管理流程圖表,快速定位關(guān)鍵信息;也可以結(jié)合地貌特征分析航拍圖,判斷區(qū)域開發(fā)可行性。競品對比環(huán)節(jié),根據(jù)數(shù)學(xué)推理AIME 2024 測試,豆包1.5?深度思考模型得分追平OpenAI o3-mini-high,編程競賽和科學(xué)推理測試成績接近o1。

多模態(tài)深度思考模型的基礎(chǔ)之上,譚待認(rèn)為Agent需要良好的架構(gòu)和工具去操作數(shù)字世界和物理世界。此次火山推出的OS Agent解決方案便現(xiàn)場演示了由Agent操作瀏覽器搜索商品頁、實(shí)現(xiàn)iPhone比價(jià)的任務(wù)。

模型與工具加速Agent落地的同時(shí),Agent也會帶來更大量的模型推理消耗。據(jù)火山引擎披露,截至2025年3月底,豆包大模型日均 tokens 調(diào)用量已達(dá)到12.7萬億,較去年5月發(fā)布時(shí)增長上百倍。為應(yīng)對大規(guī)模推理需求,火山引擎打造AI云原生ServingKit 推理套件,GPU 消耗相比傳統(tǒng)方案降低80%。

趨勢之下,行業(yè)也開始出現(xiàn)Agent泛濫的現(xiàn)象,有廠商自稱部署近5000個(gè)Agent。譚待認(rèn)為Agent定義需要更新——簡單完成打油詩等任務(wù)的已不能稱為 Agent。從定性角度來看,Agent 應(yīng)能完成專業(yè)度較高、耗時(shí)較長的完整任務(wù);從技術(shù)實(shí)現(xiàn)角度來看,如果沒有運(yùn)用思考模型、缺乏反思和規(guī)劃能力,也很難被認(rèn)定為 Agent。

隨著技術(shù)落地,今年行業(yè)對Agent的定義將會更加清晰,譚待認(rèn)為或許會像自動駕駛分級一樣,對Agent也進(jìn)行自L1至L4的分級。但整體來看,深度思考模型是構(gòu)建Agent的基礎(chǔ),模型要有能力做好思考、計(jì)劃和反思,并且一定要支持多模態(tài),就像人類具備視覺和聽覺一樣。