長沙仟茂科技有限公司財(cái)經(jīng)資訊 › 首頁 ›科技 › 查看內(nèi)容

大模型被指抄襲，李開復(fù)的零一萬物致歉

2024-4-16 00:35| 發(fā)布者: 仟茂傳媒| 查看: 847| 評論: 0|來自: 互聯(lián)網(wǎng)

摘要: 北京商報(bào)訊3月15日，創(chuàng)新工場創(chuàng)始人李開復(fù)創(chuàng)辦的大模型公司零一萬物，針對其開源Yi大模型涉嫌抄襲LLaMA一事作出說明，并“表達(dá)誠摯的歉意，我們正在各開源平臺(tái)重新提交模型及代碼并補(bǔ)充LLaMA協(xié)議副本的流程中，承諾 ...

北京商報(bào)訊（記者魏蔚）3月15日，創(chuàng)新工場創(chuàng)始人李開復(fù)創(chuàng)辦的大模型公司零一萬物，針對其開源Yi大模型涉嫌抄襲LLaMA一事作出說明，并“表達(dá)誠摯的歉意，我們正在各開源平臺(tái)重新提交模型及代碼并補(bǔ)充LLaMA 協(xié)議副本的流程中，承諾盡速完成各開源社區(qū)的版本更新”。

零一萬物是李開復(fù)創(chuàng)辦的大模型創(chuàng)業(yè)公司，3月6月開源了預(yù)訓(xùn)練大模型 Yi-34和Yi-6B。不過，開發(fā)者ehartford在Yi-34B的Hugging Face開源主頁上表示，稱該模型使用了Meta LLaMA的架構(gòu) ，只對兩個(gè)張量名稱進(jìn)行了修改，分別為input_layernorm和post_attention_layernorm。ehartford還表示，希望該公司在模型被大量使用之前考慮重命名張量以符合LLaMA架構(gòu)，并將這一更改應(yīng)用到官方模型中。

根據(jù)零一萬物的說明，零一萬物在訓(xùn)練模型過程中，沿用了GPT/LLaMA的基本架構(gòu)，由于LLaMA社區(qū)的開源貢獻(xiàn)，讓零一萬物可以快速起步。零一萬物從零開始訓(xùn)練了 Yi-34B 和 Yi-6B 模型，并根據(jù)實(shí)際的訓(xùn)練框架重新實(shí)現(xiàn)了訓(xùn)練代碼，用自建的數(shù)據(jù)管線構(gòu)建了高質(zhì)量配比的訓(xùn)練數(shù)據(jù)集（從3PB原始數(shù)據(jù)精選到3T token高質(zhì)量數(shù)據(jù)）。除此以外，在 Infra 部分進(jìn)行算法、硬件、軟件聯(lián)合端到端優(yōu)化，實(shí)現(xiàn)訓(xùn)練效率倍級提升和極強(qiáng)的容錯(cuò)能力等原創(chuàng)性突破。這些科學(xué)訓(xùn)模的系統(tǒng)性工作，往往比起基本模型結(jié)構(gòu)能起到巨大的作用跟價(jià)值。

“在零一萬物初次開源過程中，我們發(fā)現(xiàn)用和開源社區(qū)普遍使用的LLaMA 架構(gòu)會(huì)對開發(fā)者更為友好，對于沿用LLaMA部分推理代碼經(jīng)實(shí)驗(yàn)更名后的疏忽，原始出發(fā)點(diǎn)是為了充分測試模型，并非刻意隱瞞來源”，對此，零一萬物提出說明并表達(dá)誠摯的歉意，“我們正在各開源平臺(tái)重新提交模型及代碼并補(bǔ)充LLaMA 協(xié)議副本的流程中，承諾盡速完成各開源社區(qū)的版本更新”。

（責(zé)任編輯：王治強(qiáng) HF013）