无码人妻精品一区二|京东快递查询快递单号|亚洲男人AV天堂午夜在|成人毛片18女人毛片免费看网站|人善交ZZZZXXXXX另类

文心大模型4.0趕超GPT-4?我們安排了一場(chǎng)硬核PK

2024-4-16 22:04| 發(fā)布者: 仟茂傳媒| 查看: 1333| 評(píng)論: 0|來(lái)自: 互聯(lián)網(wǎng)

摘要: 國(guó)內(nèi)的大模型已經(jīng)沖到了業(yè)界最強(qiáng)水平?2月17日,百度世界大會(huì)上文心大模型4.0的發(fā)布引來(lái)了一大波關(guān)注?,F(xiàn)場(chǎng)嘉賓、媒體和很多業(yè)內(nèi)專家提前獲得了評(píng)測(cè)資格,對(duì)新版本 ...
  • 國(guó)內(nèi)的大模型已經(jīng)沖到了業(yè)界最強(qiáng)水平?10 月 17 日,百度世界大會(huì)上文心大模型 4.0 的發(fā)布引來(lái)了一大波關(guān)注?,F(xiàn)場(chǎng)嘉賓、媒體和很多業(yè)內(nèi)專家提前獲得了評(píng)測(cè)資格,對(duì)新版本進(jìn)行了第一時(shí)間的上手評(píng)測(cè)。

     

    在文心一言的網(wǎng)站上,現(xiàn)在已經(jīng)出現(xiàn)了文心大模型 4.0 的標(biāo)簽,表面看起來(lái)和 3.5 版沒有太大區(qū)別:

     

     

    在這里我們要引入一點(diǎn)前置知識(shí):上個(gè)版本文心大模型 3.5 已經(jīng)有了插件(現(xiàn)有 8 種)、多模態(tài)理解、生成等能力,通過(guò)知識(shí)點(diǎn)增強(qiáng)技術(shù)實(shí)現(xiàn)了對(duì)世界知識(shí)的熟練掌握。因此,既然說(shuō) 4.0 版是「迄今為止最強(qiáng)大模型」,我們就不能再用以前過(guò)于簡(jiǎn)單的問題來(lái)考驗(yàn)它了。

     

    第1輪PK:理解能力

     

    先看理解能力,這道「中文十級(jí)題」目測(cè)連網(wǎng)友都會(huì)翻車,文心大模型 4.0 的回答簡(jiǎn)潔明了:

     

     

    換業(yè)界標(biāo)桿 GPT-4 來(lái)回答,它理解并解釋了其中幽默的意味,但表示無(wú)法確定小明最后買的是幾等座:

     

     

    下面這段話是在一檔直播節(jié)目上出現(xiàn)的,那時(shí)人們?cè)u(píng)價(jià)道:全中國(guó)沒人聽得懂白巖松在說(shuō)什么。

     

     

    兩個(gè)大模型都認(rèn)為說(shuō)話人想表達(dá)的是:人們都喜愛足球這項(xiàng)運(yùn)動(dòng),不應(yīng)該因?yàn)橐恍〔糠秩说牟幌矚g而影響到這種喜愛。不過(guò)作為人類,還是得說(shuō)一句 AI 沒有理解「想說(shuō)聲喜愛很難」這種感情。

     

    看起來(lái)理解問題的水準(zhǔn)上,兩種模型水平相近,文心大模型在一小部分問題上有點(diǎn)優(yōu)勢(shì)。

     

    第2輪PK:邏輯能力

     

    再看邏輯推理能力,輸入一個(gè)高考試卷中的物理選擇題,文心大模型 4.0 和 GPT-4 都給出了正確的回答:

     


    看起來(lái)文心能給出的答案更詳細(xì)一些,另外還顯示了幾個(gè)進(jìn)一步解釋概念的引導(dǎo)選項(xiàng),似乎它對(duì)做題進(jìn)行了專門的優(yōu)化?

     

    我們繼續(xù)問了很多高考的數(shù)學(xué)題目,結(jié)果各有對(duì)錯(cuò),也有些是都答不上來(lái)的。總體來(lái)看文心 4.0 和 GPT-4 的水平相近。

     

    第3輪PK:生成能力

     

    還有多模態(tài)生成,我們直接用同樣的指令讓兩個(gè)大模型生成一段視頻,文心一言調(diào)用「一鏡留影」插件,直接輸出了結(jié)果:

     

     

    GPT-4 則是調(diào)用 CapCut(字節(jié)的剪映)插件生成視頻內(nèi)容。需要注意的是,它提示要想生成視頻,就必須要與你進(jìn)行多輪對(duì)話,逐步確定好視頻腳本(英文的)、屏幕比例等等:

     

     

    在不斷的測(cè)試中我們還能看出,如果你Prompt得越仔細(xì),說(shuō) AI 話的格式越規(guī)整,GPT-4 的表現(xiàn)就相對(duì)越好,不過(guò)最終也并沒有產(chǎn)生決定性的差距。

     

    第4輪PK:記憶能力

     

    為了測(cè)試四大能力中的長(zhǎng)期記憶能力,我們讓文心大模型 4.0 閱讀一篇貼吧的帖子:在崩鐵更新了 1.4 版本之后,有人從自己專業(yè)的角度對(duì)劇情進(jìn)行了一長(zhǎng)段吐槽,那么這評(píng)價(jià)合理嗎?

     

     

    文心認(rèn)為游戲劇情不需要完全按照現(xiàn)實(shí)世界的邏輯來(lái)展開。我不是很認(rèn)同,我就是想要符合現(xiàn)實(shí)邏輯的劇情:

     

     

    能不能再跌宕起伏一點(diǎn)?

     

     

    再嘗試替換其中的一個(gè)人物:

     

     

    看起來(lái),文心大模型4.0可以在保持原始知識(shí)的情況下,與人在不斷對(duì)話的過(guò)程中生成、提煉出你想要的內(nèi)容。

     

    還有一些我們經(jīng)常會(huì)用得到的功能。在ChatGPT出現(xiàn)后,越來(lái)越多的人開始嘗試使用大模型幫忙來(lái)潤(rùn)色論文,據(jù)說(shuō) AI 寫論文看起來(lái)很有功底,一般人還真比不上。我們用一段著名的發(fā)言試一下: