尝试爬取淘宝网页,在parse中解析response希望获得解码后的文本
使用response.text 会在log中记录有报错:有无法解码的信息
使用response.body.decode('utf-8','ignore')也会出现同样的问题
使用response.xpath('xxxxxx').extract()可以获取相关信息
但是希望使用正则表达式进行检索,希望大神帮助,如何能过跳过那些不规则的编码获取网页文本
Python scrapy爬取网页解码问题
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
2条回答
悬赏问题
- ¥15 import arcpy出现importing _arcgisscripting 找不到相关程序
- ¥15 onvif+openssl,vs2022编译openssl64
- ¥15 iOS 自定义输入法-第三方输入法
- ¥15 很想要一个很好的答案或提示
- ¥15 扫描项目中发现AndroidOS.Agent、Android/SmsThief.LI!tr
- ¥15 怀疑手机被监控,请问怎么解决和防止
- ¥15 Qt下使用tcp获取数据的详细操作
- ¥15 idea右下角设置编码是灰色的
- ¥15 全志H618ROM新增分区
- ¥15 在grasshopper里DrawViewportWires更改预览后,禁用电池仍然显示