无码人妻精品一区二|京东快递查询快递单号|亚洲男人AV天堂午夜在|成人毛片18女人毛片免费看网站|人善交ZZZZXXXXX另类

為什么AI本質(zhì)上就是個(gè)“壓縮機(jī)”?

2025-4-25 11:34| 發(fā)布者: 互聯(lián)網(wǎng)| 查看: 396| 評(píng)論: 0|來(lái)自: 第一財(cái)經(jīng)

摘要: 谷歌最近發(fā)了篇論文,重申了一個(gè)來(lái)自信息論的觀點(diǎn)——“壓縮即智能”。當(dāng)然,論文的新意,在于通過(guò)對(duì)“壓縮率”的定義并提出相關(guān)計(jì)算方法,從而可以嘗試對(duì)“壓縮即智能”給出一個(gè)定量的解釋,并將其與人工智能大模型 ...

谷歌最近發(fā)了篇論文,重申了一個(gè)來(lái)自信息論的觀點(diǎn)——“壓縮即智能”。當(dāng)然,論文的新意,在于通過(guò)對(duì)“壓縮率”的定義并提出相關(guān)計(jì)算方法,從而可以嘗試對(duì)“壓縮即智能”給出一個(gè)定量的解釋,并將其與人工智能大模型聯(lián)系起來(lái)。

所謂“壓縮”,全稱當(dāng)然是“數(shù)據(jù)壓縮”。正如一本寫(xiě)得相當(dāng)生動(dòng)有趣的普及讀物《數(shù)據(jù)壓縮入門》所指出的:

“我們需要知道這樣一件事:我們當(dāng)下生活在其中的這個(gè)計(jì)算世界,完全建立在數(shù)據(jù)壓縮算法之上。

是的,每個(gè)部分都是如此。

每個(gè)網(wǎng)頁(yè)、每個(gè)圖像、每首歌、每個(gè)關(guān)于貓的視頻、每部流媒體網(wǎng)絡(luò)電影、每張自拍照、每次電子游戲下載、每個(gè)微型交易,甚至是操作系統(tǒng)的每次更新,所有這一切都得益于壓縮算法。事實(shí)上,哪怕只是想通過(guò)互聯(lián)網(wǎng)傳輸一個(gè)二進(jìn)制位的數(shù)據(jù),也離不開(kāi)壓縮的內(nèi)容。

數(shù)據(jù)壓縮技術(shù)最讓人驚異之處在于,它與過(guò)去40年里個(gè)人計(jì)算的很多重大改變有關(guān),但很少有人知道這一點(diǎn)?!?/em>

信息論創(chuàng)始人克勞德·香農(nóng)在為傳輸信息進(jìn)行壓縮編碼的過(guò)程中,意識(shí)到這種壓縮是有一個(gè)極限閾值的,超過(guò)這個(gè)閾值,被壓縮編碼的信息就無(wú)法通過(guò)解碼,復(fù)原為原始信息了,而是有相當(dāng)一部分信息就此被損失掉,比如作為“有損壓縮”的MP3音樂(lè)格式,聽(tīng)上去效果就要比CD差不少。這個(gè)閾值被命名為“香農(nóng)熵”。相應(yīng)地,“無(wú)損壓縮”就是壓縮率控制在“香農(nóng)熵”以下,比如解碼后可以比較好地恢復(fù)到CD音質(zhì)的APE、FLAC等格式。所有的現(xiàn)代壓縮算法,可以說(shuō)都是在頑強(qiáng)地與“香農(nóng)熵”作斗爭(zhēng),希望開(kāi)發(fā)出以盡可能高的壓縮率來(lái)“高保真”地保存、傳輸和復(fù)制信息的技術(shù)。

但其實(shí)數(shù)據(jù)壓縮遠(yuǎn)不只是算法問(wèn)題,而是涉及人類對(duì)世界根本的認(rèn)知方式。

我們且撇開(kāi)數(shù)據(jù)壓縮算法中的數(shù)學(xué)原理,單就“壓縮即智能”這一觀點(diǎn),其實(shí)和我在某篇機(jī)器學(xué)筆記里所說(shuō)的“模型即智能”,完全是等價(jià)的,因?yàn)樗^模型,就是給無(wú)限變量的復(fù)雜世界建一個(gè)有限變量的模,通過(guò)被大大壓縮的變量數(shù)量,及其相互作用的結(jié)構(gòu),來(lái)有效模擬復(fù)雜世界在某一特定時(shí)空中的運(yùn)作模式(用本屆諾獎(jiǎng)得主杰弗里·辛頓的術(shù)語(yǔ)來(lái)說(shuō),就叫做“泛化”,即通過(guò)少量已知數(shù)據(jù)準(zhǔn)確預(yù)知大量未知數(shù)據(jù)),從而讓我們可以作出預(yù)測(cè)和決策。

事實(shí)上,所有的科學(xué)公式都不外乎是一種模型,因此也不外乎是一種數(shù)據(jù)壓縮方式。模型總是只能在一定時(shí)空中起作用,哪怕它是牛頓定律,因?yàn)槟P蛯?duì)數(shù)據(jù)的壓縮根本來(lái)說(shuō)總是為了擬合眼前的“事實(shí)”——這正是“實(shí)驗(yàn)科學(xué)”的本質(zhì)。更高的壓縮率一般意味著更好的模型,也就意味著更高的智能,就好比萬(wàn)有引力定律對(duì)近代的觀測(cè)宇宙有最高的壓縮率(也就是用最精煉的公式定義了這一宇宙的運(yùn)作方式),因此牛頓不僅比絕大多數(shù)人,而且比絕大多數(shù)科學(xué)家有更高的智能。

為什么我們可以說(shuō)“壓縮即智能”或“模型即智能”?因?yàn)閴嚎s變量數(shù)據(jù)或者建模,就意味著“主動(dòng)”地挑選出一部分被認(rèn)為是關(guān)鍵的變量,而舍棄絕大多數(shù)被認(rèn)為是冗余的信息,來(lái)為這個(gè)看上去無(wú)比復(fù)雜的世界建模,這種認(rèn)知的“主動(dòng)性”、這種應(yīng)對(duì)世界的“主動(dòng)性”——而不是像(我們所以為的)石頭那樣被動(dòng)接受一切——不正是當(dāng)我們談及“智能”的時(shí)候,真正讓我們感覺(jué)make sense的東西嗎?

并且智能和學(xué)習(xí)能力高度相關(guān)。什么是學(xué)習(xí)?無(wú)論人的學(xué)習(xí)還是機(jī)器學(xué)習(xí),本質(zhì)不都是學(xué)習(xí)用建立在有限數(shù)據(jù)集基礎(chǔ)上的模型去應(yīng)對(duì)這個(gè)無(wú)限世界,并在應(yīng)對(duì)的過(guò)程中根據(jù)反饋不斷調(diào)整以至迭代模型嗎?所以“學(xué)習(xí)即智能”很大程度上也與“壓縮即智能”等價(jià),人工智能大語(yǔ)言模型,正如“GPT之父”伊爾亞·蘇茨克維多次強(qiáng)調(diào)的,本質(zhì)上就是個(gè)效率極高的數(shù)據(jù)壓縮機(jī)。

《數(shù)據(jù)壓縮入門》

[美]柯?tīng)柼亍溈税怖?亞歷克斯·海奇 著

人民郵電出版社2020年3月版