Python scrapy爬取网页解码问题

尝试爬取淘宝网页，在parse中解析response希望获得解码后的文本
使用response.text 会在log中记录有报错：有无法解码的信息
使用response.body.decode('utf-8','ignore')也会出现同样的问题
使用response.xpath('xxxxxx').extract()可以获取相关信息
但是希望使用正则表达式进行检索，希望大神帮助，如何能过跳过那些不规则的编码获取网页文本

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
OwnsDream 2017-08-17 03:42
关注
要获取一下网站的编码格式，不一定都是utf8的，获取后根据编码解析获取的内容

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python的scrapy爬取网站用法
2023-03-02 17:32

EaSoNgo111的博客打开 mySpider 目录下的 items.py，创建一个 ItcastItem 类，和构建 item 模型（model）BUG：引用mySpider/items.py 定义的 ItcastItem 类出现问题。打开mySpider/spider目录里的 itcast.py。
python-scrapy爬取网页编码为gb2312
2019-10-08 09:39

dlnj93539的博客最近两天在学scrapy,发现爬取编码为gb2312的网页时出现错误，解决后又出现中文乱码问题，弄了两天终于解决了 1.（测utf-8/gb2312可以成功调码解码） 1. import chardet print(chardet.detect(title)) py3用库...
爬虫攻守道 - 2023最新 - JS逆向 - Python Scrapy实现 - 爬取某天气网站历史数据
2023-01-10 17:18

biaobro的博客爬虫与反爬虫 - 2023最新爬取某天气网站历史数据 - JS逆向 - Python实现
Python爬虫-Scrapy框架（项目实战）- 爬取动态页面
2019-05-10 18:40

sunzhihao_future的博客 Python爬虫-Scrapy框架（项目实战）- 爬取动态响应页面
Python大数据之从网页上爬取数据的方法详解
2020-09-18 11:11

本篇文章主要介绍了如何使用Python进行网页数据的爬取，并结合实例详细分析了Python爬虫爬取网页数据的相关操作技巧。首先，文章提到了Python中的Scrapy框架，这是一个快速、高层次的网页爬取和网页抓取框架，用于...
超强干货之---Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，...在大规模数据爬取时，选择合适的存储方式取决于数据的规模、结构和访问需求。
html结尾的网址爬取不了,scrapy爬取整个网页时如何避免链接失效
2021-06-19 01:45

zljchris的博客 scrapy爬取整个网页时如何避免链接失效最近在使用scrapy爬取网页时遇到很多图片不能正常显示、a标签链接失效的情况，多是因为爬下来的网页和图片路径已经失去了原有的结构，网页无法根据标签的src或者标签的href找到...
python爬虫手把手教你抓取微博评论（完整代码）
2020-12-22 09:49

这些库分别用于时间处理、编码解码、加密解密、网络请求、正则表达式、图像处理、随机数生成、URL编码、Cookie管理、CSV文件操作以及操作系统交互。第二步，设置一些全局变量，例如`comment_path`，用来存储抓取的...
python爬虫 scrapy 爬取腾讯招聘
2019-01-05 15:03

Mr.Zheng~_的博客 # 编码解码 content = response.body.decode('utf-8') # xpath 解析页面 tree1 = etree.HTML(content) # 提取所需内容 duty_list = tree1.xpath('//table[@class="tablelist textl"]/tr[3]//text()') duty_...
没有解决我的问题, 去提问

Python scrapy爬取网页解码问题

2条回答 默认 最新

2条回答默认最新