wfx0002 2023-02-18 20:55 采纳率: 100%
浏览 36
已结题

ChatGPT相当于互联网文本的有损压缩图(JPEG)是这样吗?

我很喜欢的科幻作家Ted Chiang前几天在「纽约客」上发了一篇谈论ChatGPT的文章,主要观点是一个比喻:ChatGPT相当于互联网文本的有损压缩图(JPEG)。

尽管很多从事AI训练的技术专家不太赞同这篇稿子的批判性立场,但是考虑到Ted Chiang本身的语言学造诣,他的思考还是很有洞见的。

互联网的信噪比一直在不可挽回的跌落,像是搜索引擎在某种程度上也是效率工具,核心功能在于如何在浩瀚如烟的比特池里提取用户需要的信息。

ChatGPT极大的拓展了这种功能的可定制化,就像现在已经有人利用它开发出了会议插件,一场几个小时的网上会议下来,ChatGPT可以帮你整理每个与会者的发言重点和全场精华,所以人看了都在大呼刚需。

Ted Chiang的质疑在于,ChatGPT是一个单向脱水器,但是它可能无法逆向还原信息,就像JPEG压缩了一张图片之后,确实能够带来文件体积的飞跃下降,但是被它丢弃的数据也是很难重新找回来的,你再也拿不回原始图片了。

其实我最开始看完这篇文章,想到的是美剧「硅谷」,这部从2014年开始播放、总共拍了6季的行业剧讲了一家初创公司是怎么经历科技浪潮的故事,而它围绕的核心产品,也是编辑虚构出来的前沿技术:一种新型压缩算法。

根据剧集的设定,这种压缩算法可以无损减少文件体积,解决未来世界数据爆炸的难题,所有的互联网服务都离不开它,想象一下,如果AWS的储存成本可以节省1万倍,那么亚马逊的市值可以涨到什么高度去。

你可以把这个原创的压缩算法理解为新型的ZIP,它可以无缝处理所有信息,然后封装到极其有限的容量里,却无需冗长的解压缩过程,丝毫不影响用户的读写。

事实上,过去几十年来技术行业都没停过对于压缩算法的死磕,因为它确实前途广大,兼具经济价值和社会价值,只是暂时达不到剧里构想的那种理想状态,也有机器学习的研究方向认为,自然语言会是压缩的终极目标,一旦攻克了这个堡垒,整个互联网的底层代码都要刷新。

ChatGPT正走在这条路上,不过就像Ted Chiang所言,它目前能做到的,是JPEG,而非ZIP,当然它也未必一定要做到ZIP,因为计算机生态就是多格式共存的,ZIP和JPEG之间从来都不是相互取代的关系。

而Ted Chiang对于ChatGPT——或者所有泛用式文本AI——的期待相当完美主义,也就是JPEG+ZIP的技术范式,它大可尽情地压缩互联网信息,但是这种压缩能力应该是无损的,AI无权自行脑补生成内容。

这是一种更高也是更加苛刻的要求,当下人们都惊艳于ChatGPT的言之有理,但它还应做到言之有据,否则就是在一边清理一边污染,谁也不知道收益和破坏的比重会是怎样分配的。

  • 写回答

3条回答 默认 最新

  • 社区专家-Monster-XH 2023-02-18 21:06
    关注

    此回答引用ChatGPT:
    Ted Chiang的比喻将ChatGPT比作互联网文本的有损压缩图(JPEG)是有一定道理的,因为ChatGPT在生成文本时的确会对信息进行压缩,但这种压缩并不像JPEG一样会导致信息的不可逆丢失。ChatGPT的压缩是可逆的,因为生成的文本中的信息都可以被还原回来,不像JPEG丢弃了部分数据就无法恢复原始图像。

    另外,ChatGPT的应用场景也不完全像JPEG一样只是为了节省存储空间。ChatGPT可以生成人类可以理解的文本,提供各种自然语言处理的应用场景,如自动回复、智能客服、机器翻译等,这些场景都需要生成高质量的文本,而ChatGPT的生成能力可以帮助实现这些场景。

    尽管ChatGPT的生成文本的质量越来越高,但它的缺陷也是不可忽视的。由于它是在海量数据中学习的,生成的文本很容易受到数据集中的偏见和错误的影响,这也是需要警惕的地方。因此,在使用ChatGPT时需要认识到它的局限性,做好数据过滤和文本审查等工作,以保证生成的文本质量和可靠性。

    总之,ChatGPT和JPEG在某些方面确实有相似之处,但也有很多不同之处,不能简单地将它们等同起来。ChatGPT是一种强大的文本生成工具,应用领域非常广泛,但同时也需要考虑它的局限性和使用上的安全性。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 3月2日
  • 已采纳回答 2月22日
  • 创建了问题 2月18日

悬赏问题

  • ¥15 Android STD快速启动
  • ¥15 如何使用simulink建立一个永磁同步直线电机模型?
  • ¥30 天体光谱图的的绘制并得到星表
  • ¥15 PointNet++的onnx模型只能使用一次
  • ¥20 西南科技大学数字信号处理
  • ¥15 有两个非常“自以为是”烦人的问题急期待大家解决!
  • ¥30 STM32 INMP441无法读取数据
  • ¥15 R语言绘制密度图,一个密度曲线内fill不同颜色如何实现
  • ¥100 求汇川机器人IRCB300控制器和示教器同版本升级固件文件升级包
  • ¥15 用visualstudio2022创建vue项目后无法启动