shu_8708
shu_8708
采纳率0%
2017-08-17 02:44 阅读 2.2k

Python scrapy爬取网页解码问题

4

尝试爬取淘宝网页,在parse中解析response希望获得解码后的文本
使用response.text 会在log中记录有报错:有无法解码的信息
使用response.body.decode('utf-8','ignore')也会出现同样的问题
使用response.xpath('xxxxxx').extract()可以获取相关信息
但是希望使用正则表达式进行检索,希望大神帮助,如何能过跳过那些不规则的编码获取网页文本

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享

2条回答 默认 最新

  • bobo324 OwnsDream 2017-08-17 03:42

    要获取一下网站的编码格式,不一定都是utf8的,获取后根据编码解析获取的内容

    点赞 评论 复制链接分享
  • oyljerry oyljerry 2017-08-17 05:47

    淘宝有可能页面编码是gbk,所以你可能要用gbk等去decode

    点赞 评论 复制链接分享

相关推荐