我很喜欢的科幻作家Ted Chiang前几天在「纽约客」上发了一篇谈论ChatGPT的文章,主要观点是一个比喻:ChatGPT相当于互联网文本的有损压缩图(JPEG)。
尽管很多从事AI训练的技术专家不太赞同这篇稿子的批判性立场,但是考虑到Ted Chiang本身的语言学造诣,他的思考还是很有洞见的。
互联网的信噪比一直在不可挽回的跌落,像是搜索引擎在某种程度上也是效率工具,核心功能在于如何在浩瀚如烟的比特池里提取用户需要的信息。
ChatGPT极大的拓展了这种功能的可定制化,就像现在已经有人利用它开发出了会议插件,一场几个小时的网上会议下来,ChatGPT可以帮你整理每个与会者的发言重点和全场精华,所以人看了都在大呼刚需。
Ted Chiang的质疑在于,ChatGPT是一个单向脱水器,但是它可能无法逆向还原信息,就像JPEG压缩了一张图片之后,确实能够带来文件体积的飞跃下降,但是被它丢弃的数据也是很难重新找回来的,你再也拿不回原始图片了。
其实我最开始看完这篇文章,想到的是美剧「硅谷」,这部从2014年开始播放、总共拍了6季的行业剧讲了一家初创公司是怎么经历科技浪潮的故事,而它围绕的核心产品,也是编辑虚构出来的前沿技术:一种新型压缩算法。
根据剧集的设定,这种压缩算法可以无损减少文件体积,解决未来世界数据爆炸的难题,所有的互联网服务都离不开它,想象一下,如果AWS的储存成本可以节省1万倍,那么亚马逊的市值可以涨到什么高度去。
你可以把这个原创的压缩算法理解为新型的ZIP,它可以无缝处理所有信息,然后封装到极其有限的容量里,却无需冗长的解压缩过程,丝毫不影响用户的读写。
事实上,过去几十年来技术行业都没停过对于压缩算法的死磕,因为它确实前途广大,兼具经济价值和社会价值,只是暂时达不到剧里构想的那种理想状态,也有机器学习的研究方向认为,自然语言会是压缩的终极目标,一旦攻克了这个堡垒,整个互联网的底层代码都要刷新。
ChatGPT正走在这条路上,不过就像Ted Chiang所言,它目前能做到的,是JPEG,而非ZIP,当然它也未必一定要做到ZIP,因为计算机生态就是多格式共存的,ZIP和JPEG之间从来都不是相互取代的关系。
而Ted Chiang对于ChatGPT——或者所有泛用式文本AI——的期待相当完美主义,也就是JPEG+ZIP的技术范式,它大可尽情地压缩互联网信息,但是这种压缩能力应该是无损的,AI无权自行脑补生成内容。
这是一种更高也是更加苛刻的要求,当下人们都惊艳于ChatGPT的言之有理,但它还应做到言之有据,否则就是在一边清理一边污染,谁也不知道收益和破坏的比重会是怎样分配的。