ChatGPT相当于互联网文本的有损压缩图（JPEG）是这样吗？

我很喜欢的科幻作家Ted Chiang前几天在「纽约客」上发了一篇谈论ChatGPT的文章，主要观点是一个比喻：ChatGPT相当于互联网文本的有损压缩图（JPEG）。

尽管很多从事AI训练的技术专家不太赞同这篇稿子的批判性立场，但是考虑到Ted Chiang本身的语言学造诣，他的思考还是很有洞见的。

互联网的信噪比一直在不可挽回的跌落，像是搜索引擎在某种程度上也是效率工具，核心功能在于如何在浩瀚如烟的比特池里提取用户需要的信息。

ChatGPT极大的拓展了这种功能的可定制化，就像现在已经有人利用它开发出了会议插件，一场几个小时的网上会议下来，ChatGPT可以帮你整理每个与会者的发言重点和全场精华，所以人看了都在大呼刚需。

Ted Chiang的质疑在于，ChatGPT是一个单向脱水器，但是它可能无法逆向还原信息，就像JPEG压缩了一张图片之后，确实能够带来文件体积的飞跃下降，但是被它丢弃的数据也是很难重新找回来的，你再也拿不回原始图片了。

其实我最开始看完这篇文章，想到的是美剧「硅谷」，这部从2014年开始播放、总共拍了6季的行业剧讲了一家初创公司是怎么经历科技浪潮的故事，而它围绕的核心产品，也是编辑虚构出来的前沿技术：一种新型压缩算法。

根据剧集的设定，这种压缩算法可以无损减少文件体积，解决未来世界数据爆炸的难题，所有的互联网服务都离不开它，想象一下，如果AWS的储存成本可以节省1万倍，那么亚马逊的市值可以涨到什么高度去。

你可以把这个原创的压缩算法理解为新型的ZIP，它可以无缝处理所有信息，然后封装到极其有限的容量里，却无需冗长的解压缩过程，丝毫不影响用户的读写。

事实上，过去几十年来技术行业都没停过对于压缩算法的死磕，因为它确实前途广大，兼具经济价值和社会价值，只是暂时达不到剧里构想的那种理想状态，也有机器学习的研究方向认为，自然语言会是压缩的终极目标，一旦攻克了这个堡垒，整个互联网的底层代码都要刷新。

ChatGPT正走在这条路上，不过就像Ted Chiang所言，它目前能做到的，是JPEG，而非ZIP，当然它也未必一定要做到ZIP，因为计算机生态就是多格式共存的，ZIP和JPEG之间从来都不是相互取代的关系。

而Ted Chiang对于ChatGPT——或者所有泛用式文本AI——的期待相当完美主义，也就是JPEG+ZIP的技术范式，它大可尽情地压缩互联网信息，但是这种压缩能力应该是无损的，AI无权自行脑补生成内容。

这是一种更高也是更加苛刻的要求，当下人们都惊艳于ChatGPT的言之有理，但它还应做到言之有据，否则就是在一边清理一边污染，谁也不知道收益和破坏的比重会是怎样分配的。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
社区专家-Monster-XH 2023-02-18 21:06
关注
此回答引用ChatGPT：
Ted Chiang的比喻将ChatGPT比作互联网文本的有损压缩图（JPEG）是有一定道理的，因为ChatGPT在生成文本时的确会对信息进行压缩，但这种压缩并不像JPEG一样会导致信息的不可逆丢失。ChatGPT的压缩是可逆的，因为生成的文本中的信息都可以被还原回来，不像JPEG丢弃了部分数据就无法恢复原始图像。

另外，ChatGPT的应用场景也不完全像JPEG一样只是为了节省存储空间。ChatGPT可以生成人类可以理解的文本，提供各种自然语言处理的应用场景，如自动回复、智能客服、机器翻译等，这些场景都需要生成高质量的文本，而ChatGPT的生成能力可以帮助实现这些场景。

尽管ChatGPT的生成文本的质量越来越高，但它的缺陷也是不可忽视的。由于它是在海量数据中学习的，生成的文本很容易受到数据集中的偏见和错误的影响，这也是需要警惕的地方。因此，在使用ChatGPT时需要认识到它的局限性，做好数据过滤和文本审查等工作，以保证生成的文本质量和可靠性。

总之，ChatGPT和JPEG在某些方面确实有相似之处，但也有很多不同之处，不能简单地将它们等同起来。ChatGPT是一种强大的文本生成工具，应用领域非常广泛，但同时也需要考虑它的局限性和使用上的安全性。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

ChatGPT是互联网文本的一个模糊JPEG
2026-01-19 10:28

成都它思科技有限公司的博客编者注：1) ChatGPT是互联网文本的一个模糊JPEG或说一个有损压缩，是个有意思的类比，有其形象性；但既然是类比，可能会丢失一些严谨。读者请辩证阅读。2) 从信息论讲，压缩的极限是由信源的熵（entropy）决定，信源...
《降临》作者特德·姜：ChatGPT 是互联网的有损压缩
2023-02-25 17:47

硅基新手村的博客欢迎投稿，投稿请添加微信好友：cloud-native-yang2 月 9 日，美籍华裔科幻作家特德·姜（Ted Chiang）在《纽约客》上发表文章，表达了他对时下大热的人工智能 ChatGPT 独特见解。特德·姜在科幻小说领域成绩斐然，...
《降临》作者特德·姜：ChatGPT是网上所有文本的模糊图像
2023-02-12 00:00

人机与认知实验室的博客 2月9日，美籍华裔科幻作家特德·姜（Ted Chiang）在《纽约客》上发表文章，表达了他对时下大热的人工智能ChatGPT独特见解。特德·姜在科幻小说领域成绩斐然，曾获得星云奖、雨果奖等科幻小说大奖。他的短篇小说《你...
推荐️适合新媒体人的AI工具（以及ChatGPT妙用）
2024-06-11 17:15

计育韬的博客而可能受制于使用者的英语水平或其他原因，我们不一定能很快的选择合适的关键字去训练 AI 在反复生成中不断逼近你的预期，因此 ChatGPT 本身就可以用作你生成关键字的工具▼。icon 图标在新媒体中的应用极为广泛，...
低成本跑大模型：Glyph视觉压缩部署实战指南
2026-01-16 00:17

远方之巅的博客本文介绍了如何在星图GPU平台上自动化部署Glyph-视觉推理镜像，实现低成本处理超长文本。该方案通过将长文本渲染为图像，利用视觉语言模型进行理解，显著降低了显存消耗。用户可轻松应用于长篇技术文档问答、报告...
大模型时代下智能文档处理核心技术大揭秘
2023-05-20 08:52

当年的春天的博客随着人工智能技术的发展，智能图像处理成为了一种风靡全球的热门技术。智能图像处理可以帮助我们从大量的图像数据中提取最有价值的信息，为医疗、军事、安防等领域带来了重大的贡献。然而，图像处理的难点也随之而来...
哨兵：基于代理模型注意力探测的LLM上下文压缩的理解视角
2025-06-01 20:45

新书《ChatBI核心技术》上市了！的博客现有的压缩方法通常需要对专用压缩模型进行监督训练，增加了成本并降低了便携性。我们提出了哨兵（Sentinel），一种轻量级的句子级压缩框架，将上下文过滤重新定义为基于注意力的理解任务。与训练压缩模型不同，哨兵...
信息的量化---Deepseek+ChatGPT o3作答
2025-06-10 10:41

部分分式的博客生成式AI：信息创造自动化（如ChatGPT生成文本）。九、潜在风险：信息的双刃剑信息过载：注意力稀缺导致决策瘫痪；虚假信息：谣言、Deepfake 扭曲认知；隐私侵蚀：数据滥用威胁个人安全；数字鸿沟：信息...
深入浅出完整解析LoRA（Low-Rank Adaptation）模型核心基础知识
2023-06-28 08:56

Rocky Ding*的博客零基础入门AI绘画，快速掌握LoRA核心基础知识。
深入浅出完整解析Stable Diffusion（SD）核心基础知识
2023-05-28 18:40

Rocky Ding*的博客深入浅出完整解析Stable Diffusion（SD）核心基础知识（全网最详细讲解），从0到1快速入门AIGC领域，快速上手AI绘画核心模型—Stable Diffusion！
w~视觉~合集7
2025-06-04 12:42

whaosoft-143的博客表7 泛化到艺术类和人脸类图片的结果图3 测试所用的艺术类和人脸类图片展示展望随着AI生成图片能力的不断提升，对于AI生成的图片实现有效检测的需求将会越来越迫切。本数据集致力于为真实环境下的生成图片...
51c大模型~合集124
2025-05-05 12:23

whaosoft-143的博客昨日，会议主办方公布了本年度时间检验奖，授予 UCSD 与微软研究院合著的论文《Deeply-Supervised Nets》（深度监督网络），共同一作分别为 Chen-Yu Lee（现为谷歌研究科学家）和 AI 圈所熟知的谢赛宁（现为纽约大学...
ChatGPT 不是黑魔法，“替代搜索引擎”言之尚早
2023-03-01 19:46

Zilliz Planet的博客 ChatGPT 火了。整个 LLM 和搜索领域都已经在过去几个月内发生了翻天覆地的变化。ChatGPT 不再是一个玩具，它开始被微软、谷歌集成在搜索以及各个 SaaS 服务中，且取得了令人惊叹的效果。我尝试着使用 ChatGPT 回答...
【AI视野·今日CV 计算机视觉论文速览第272期】Fri, 20 Oct 2023
2023-10-24 17:28

hitrjj的博客 AI视野·今日CS.CV 计算机视觉论文速览 Fri, 20 Oct 2023 Totally 62 papers 上期速览✈更多精彩请移步主页 Daily Computer Vision Papers Putting the Object Back into Video Object Segmentation Authors Ho ...
大模型“涌现”的思维链，究竟是一种什么能力？
2023-05-02 17:24

人工智能学家的博客来源：脑极体听说最近AI大厂的开发人员和高校的NLP研究人员，都在琢磨，怎么让大模型“涌现”。那画面莫名就让我想到了程序员给服务器上香来保佑不宕机，都有种求诸于天的玄学。所谓“涌现”,在大模型领域指的是当...
ChatGPT 和其它 LLM 的编程指南（二）
2025-07-10 12:41

绝不原创的飞龙的博客这里是关于数据压缩的一些背景信息，帮助你更容易理解接下来的内容。本节讲述了如何总结你所给出的或找到的、你无法完全理解的代码，或者你不太清楚它的运行机制。或者，也许你只是觉得不想花时间脑力思考，反而希望...
走向实用的AI编解码
2023-06-15 08:03

LiveVideoStack_的博客基于AI的端到端数据压缩方法受到越来越多的关注，研究对象已经包括图像、视频、点云、文本、语音和基因组等，其中AI图像压缩的研究最为活跃。图像编解码的研究和应用历史悠久，AI方法要达到实用，需要解决诸多问题...
运行大模型成本优化：云端GPU按秒计费比包月省80%
2026-01-18 03:21

purplerain89的博客本文介绍了基于星图GPU平台，如何自动化部署RexUniNLU零样本通用自然...该平台支持按秒计费的GPU资源调度，结合预置镜像可快速搭建NLP服务，适用于模型微调、智能客服等场景，显著降低初创团队的算力成本与技术门槛。
RAG模型深度解析：万字长文详解问题与优化策略，掌握AI Agent必备技能！
2025-04-23 14:48

AI大模型-大飞的博客这样生成的回答不仅依赖于生成模型本身的语言生成能力，还利用了检索到的外部知识。通常介绍RAG的文章都会强调以上两个阶段，概括为“检索-生成”链条，通过检索提供实时的、相关的外部知识，从而增强生成模型的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月18日

ChatGPT相当于互联网文本的有损压缩图（JPEG）是这样吗？

3条回答 默认 最新

问题事件

3条回答默认最新