cyj2020014009 2023-02-09 21:24 采纳率: 100%
浏览 21
已结题

关于requests.get获取网页信息的一个编码问题

import requsets
url = '......'
resp = requsets.get(url)
a = resp.text
print(a)
resp.close()

我的问题是,我从 a 中得到了这个网页所采用编码的字符集是 gb2312
我直接 a.encode('gb2312')
这样他会告诉我有一些字符是解码不了的 像这样:UnicodeEncodeError: 'gb2312' codec can't encode character '\xb5' in position 251: illegal multibyte sequence
但是我用 resp.encoding = 'gb2312' 再打印a 这样就能够得出解码的东西
在这两部分进行解码得到的结果不一样,我想问这是为什么? 感谢感谢

  • 写回答

2条回答 默认 最新

  • 一花一草皆风景 2023-02-09 21:31
    关注

    题主,编码是有区别的,参考:https://www.51cto.com/article/687483.html
    如有疑问,可以继续与我联系。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 2月18日
  • 已采纳回答 2月10日
  • 创建了问题 2月9日

悬赏问题

  • ¥15 Stata链式中介效应代码修改
  • ¥15 latex投稿显示click download
  • ¥15 请问读取环境变量文件失败是什么原因?
  • ¥15 在若依框架下实现人脸识别
  • ¥15 添加组件无法加载页面,某块加载卡住
  • ¥15 网络科学导论,网络控制
  • ¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比,为什么Snetinel-2计算的结果最小值特别小,而Lansat8就很平均
  • ¥15 metadata提取的PDF元数据,如何转换为一个Excel
  • ¥15 关于arduino编程toCharArray()函数的使用
  • ¥100 vc++混合CEF采用CLR方式编译报错