Hold_C 2020-10-12 11:34 采纳率: 20%
浏览 41

scrapy 爬虫,编码转换问题求解!!!

问题描述:
HTML中的编码串:
HTML源码:&#x开头的编码字符串,爬虫爬下来的是 \u开头的,后四位一样
这个怎么才能获得&#x开头的编码啊?
ps: \u开头的字符串,python认为是一个字符,也就是说他的长度为1,因为需要做字符串替换,替换成uni开头的(后四位不变),用来做大众点评的字体反爬,所以想要获得HTML中的&#x开头的字符串
恳请大佬指点指点!!!!

图片说明
抓字体文件获得的字典:
图片说明

爬虫爬下的HTML中的编码:
图片说明

  • 写回答

1条回答 默认 最新

  • Hold_C 2020-11-22 12:45
    关注

    已解决

    评论

报告相同问题?

悬赏问题

  • ¥100 set_link_state
  • ¥15 虚幻5 UE美术毛发渲染
  • ¥15 CVRP 图论 物流运输优化
  • ¥15 Tableau online 嵌入ppt失败
  • ¥100 支付宝网页转账系统不识别账号
  • ¥15 基于单片机的靶位控制系统
  • ¥15 真我手机蓝牙传输进度消息被关闭了,怎么打开?(关键词-消息通知)
  • ¥15 装 pytorch 的时候出了好多问题,遇到这种情况怎么处理?
  • ¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
  • ¥15 手机接入宽带网线,如何释放宽带全部速度