長(zhǎng)沙仟茂科技有限公司財(cái)經(jīng)資訊 › 首頁(yè) ›行業(yè)新聞 › 查看內(nèi)容

為什么AI本質(zhì)上就是個(gè)“壓縮機(jī)”？

2025-4-25 11:34| 發(fā)布者: 互聯(lián)網(wǎng)| 查看: 396| 評(píng)論: 0|來(lái)自: 第一財(cái)經(jīng)

摘要: 谷歌最近發(fā)了篇論文，重申了一個(gè)來(lái)自信息論的觀點(diǎn)——“壓縮即智能”。當(dāng)然，論文的新意，在于通過(guò)對(duì)“壓縮率”的定義并提出相關(guān)計(jì)算方法，從而可以嘗試對(duì)“壓縮即智能”給出一個(gè)定量的解釋，并將其與人工智能大模型 ...

谷歌最近發(fā)了篇論文，重申了一個(gè)來(lái)自信息論的觀點(diǎn)——“壓縮即智能”。當(dāng)然，論文的新意，在于通過(guò)對(duì)“壓縮率”的定義并提出相關(guān)計(jì)算方法，從而可以嘗試對(duì)“壓縮即智能”給出一個(gè)定量的解釋，并將其與人工智能大模型聯(lián)系起來(lái)。

所謂“壓縮”，全稱當(dāng)然是“數(shù)據(jù)壓縮”。正如一本寫(xiě)得相當(dāng)生動(dòng)有趣的普及讀物《數(shù)據(jù)壓縮入門》所指出的：

“我們需要知道這樣一件事：我們當(dāng)下生活在其中的這個(gè)計(jì)算世界，完全建立在數(shù)據(jù)壓縮算法之上。

是的，每個(gè)部分都是如此。

每個(gè)網(wǎng)頁(yè)、每個(gè)圖像、每首歌、每個(gè)關(guān)于貓的視頻、每部流媒體網(wǎng)絡(luò)電影、每張自拍照、每次電子游戲下載、每個(gè)微型交易，甚至是操作系統(tǒng)的每次更新，所有這一切都得益于壓縮算法。事實(shí)上，哪怕只是想通過(guò)互聯(lián)網(wǎng)傳輸一個(gè)二進(jìn)制位的數(shù)據(jù)，也離不開(kāi)壓縮的內(nèi)容。

數(shù)據(jù)壓縮技術(shù)最讓人驚異之處在于，它與過(guò)去40年里個(gè)人計(jì)算的很多重大改變有關(guān)，但很少有人知道這一點(diǎn)?！?/em>

信息論創(chuàng)始人克勞德·香農(nóng)在為傳輸信息進(jìn)行壓縮編碼的過(guò)程中，意識(shí)到這種壓縮是有一個(gè)極限閾值的，超過(guò)這個(gè)閾值，被壓縮編碼的信息就無(wú)法通過(guò)解碼，復(fù)原為原始信息了，而是有相當(dāng)一部分信息就此被損失掉，比如作為“有損壓縮”的MP3音樂(lè)格式，聽(tīng)上去效果就要比CD差不少。這個(gè)閾值被命名為“香農(nóng)熵”。相應(yīng)地，“無(wú)損壓縮”就是壓縮率控制在“香農(nóng)熵”以下，比如解碼后可以比較好地恢復(fù)到CD音質(zhì)的APE、FLAC等格式。所有的現(xiàn)代壓縮算法，可以說(shuō)都是在頑強(qiáng)地與“香農(nóng)熵”作斗爭(zhēng)，希望開(kāi)發(fā)出以盡可能高的壓縮率來(lái)“高保真”地保存、傳輸和復(fù)制信息的技術(shù)。

但其實(shí)數(shù)據(jù)壓縮遠(yuǎn)不只是算法問(wèn)題，而是涉及人類對(duì)世界根本的認(rèn)知方式。

我們且撇開(kāi)數(shù)據(jù)壓縮算法中的數(shù)學(xué)原理，單就“壓縮即智能”這一觀點(diǎn)，其實(shí)和我在某篇機(jī)器學(xué)筆記里所說(shuō)的“模型即智能”，完全是等價(jià)的，因?yàn)樗^模型，就是給無(wú)限變量的復(fù)雜世界建一個(gè)有限變量的模，通過(guò)被大大壓縮的變量數(shù)量，及其相互作用的結(jié)構(gòu)，來(lái)有效模擬復(fù)雜世界在某一特定時(shí)空中的運(yùn)作模式（用本屆諾獎(jiǎng)得主杰弗里·辛頓的術(shù)語(yǔ)來(lái)說(shuō)，就叫做“泛化”，即通過(guò)少量已知數(shù)據(jù)準(zhǔn)確預(yù)知大量未知數(shù)據(jù)），從而讓我們可以作出預(yù)測(cè)和決策。

事實(shí)上，所有的科學(xué)公式都不外乎是一種模型，因此也不外乎是一種數(shù)據(jù)壓縮方式。模型總是只能在一定時(shí)空中起作用，哪怕它是牛頓定律，因?yàn)槟Ｐ蛯?duì)數(shù)據(jù)的壓縮根本來(lái)說(shuō)總是為了擬合眼前的“事實(shí)”——這正是“實(shí)驗(yàn)科學(xué)”的本質(zhì)。更高的壓縮率一般意味著更好的模型，也就意味著更高的智能，就好比萬(wàn)有引力定律對(duì)近代的觀測(cè)宇宙有最高的壓縮率（也就是用最精煉的公式定義了這一宇宙的運(yùn)作方式），因此牛頓不僅比絕大多數(shù)人，而且比絕大多數(shù)科學(xué)家有更高的智能。

為什么我們可以說(shuō)“壓縮即智能”或“模型即智能”？因?yàn)閴嚎s變量數(shù)據(jù)或者建模，就意味著“主動(dòng)”地挑選出一部分被認(rèn)為是關(guān)鍵的變量，而舍棄絕大多數(shù)被認(rèn)為是冗余的信息，來(lái)為這個(gè)看上去無(wú)比復(fù)雜的世界建模，這種認(rèn)知的“主動(dòng)性”、這種應(yīng)對(duì)世界的“主動(dòng)性”——而不是像（我們所以為的）石頭那樣被動(dòng)接受一切——不正是當(dāng)我們談及“智能”的時(shí)候，真正讓我們感覺(jué)make sense的東西嗎？

并且智能和學(xué)習(xí)能力高度相關(guān)。什么是學(xué)習(xí)？無(wú)論人的學(xué)習(xí)還是機(jī)器學(xué)習(xí)，本質(zhì)不都是學(xué)習(xí)用建立在有限數(shù)據(jù)集基礎(chǔ)上的模型去應(yīng)對(duì)這個(gè)無(wú)限世界，并在應(yīng)對(duì)的過(guò)程中根據(jù)反饋不斷調(diào)整以至迭代模型嗎？所以“學(xué)習(xí)即智能”很大程度上也與“壓縮即智能”等價(jià)，人工智能大語(yǔ)言模型，正如“GPT之父”伊爾亞·蘇茨克維多次強(qiáng)調(diào)的，本質(zhì)上就是個(gè)效率極高的數(shù)據(jù)壓縮機(jī)。

《數(shù)據(jù)壓縮入門》

[美]柯?tīng)柼亍溈税怖?亞歷克斯·海奇著

人民郵電出版社2020年3月版

鮮花

握手

雷人

路過(guò)

雞蛋

上一篇：要了解中國(guó)，先要了解世界下一篇：什么是數(shù)學(xué)家可以做得很好，而機(jī)器還做不到的？｜薦書(shū)

无码人妻精品一区二|京东快递查询快递单号|亚洲男人AV天堂午夜在|成人毛片18女人毛片免费看网站|人善交ZZZZXXXXX另类

為什么AI本質(zhì)上就是個(gè)“壓縮機(jī)”？

相關(guān)分類