shu_8708 2017-08-17 02:44 采纳率: 0%
浏览 2284
已结题

Python scrapy爬取网页解码问题

尝试爬取淘宝网页,在parse中解析response希望获得解码后的文本
使用response.text 会在log中记录有报错:有无法解码的信息
使用response.body.decode('utf-8','ignore')也会出现同样的问题
使用response.xpath('xxxxxx').extract()可以获取相关信息
但是希望使用正则表达式进行检索,希望大神帮助,如何能过跳过那些不规则的编码获取网页文本

  • 写回答

2条回答

  • OwnsDream 2017-08-17 03:42
    关注

    要获取一下网站的编码格式,不一定都是utf8的,获取后根据编码解析获取的内容

    评论

报告相同问题?

悬赏问题

  • ¥15 import arcpy出现importing _arcgisscripting 找不到相关程序
  • ¥15 onvif+openssl,vs2022编译openssl64
  • ¥15 iOS 自定义输入法-第三方输入法
  • ¥15 很想要一个很好的答案或提示
  • ¥15 扫描项目中发现AndroidOS.Agent、Android/SmsThief.LI!tr
  • ¥15 怀疑手机被监控,请问怎么解决和防止
  • ¥15 Qt下使用tcp获取数据的详细操作
  • ¥15 idea右下角设置编码是灰色的
  • ¥15 全志H618ROM新增分区
  • ¥15 在grasshopper里DrawViewportWires更改预览后,禁用电池仍然显示