Python scrapy爬取网页解码问题

尝试爬取淘宝网页，在parse中解析response希望获得解码后的文本
使用response.text 会在log中记录有报错：有无法解码的信息
使用response.body.decode('utf-8','ignore')也会出现同样的问题
使用response.xpath('xxxxxx').extract()可以获取相关信息
但是希望使用正则表达式进行检索，希望大神帮助，如何能过跳过那些不规则的编码获取网页文本

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
OwnsDream 2017-08-17 03:42
关注
要获取一下网站的编码格式，不一定都是utf8的，获取后根据编码解析获取的内容

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？ mysql python sql
2018-02-09 09:34

回答 3 已采纳 1. 把整个爬取到的网页内容直接存储到数据库肯定是可以的，你之所以没有成功，应该是因为你的数据库中的相应字段错了，整个网页内容都比较长，一般都是要用text字段，甚至是LongText)（最大长度42
scrapy爬取图片，爬取不到 python 有问必答
2021-05-23 20:32

回答 2 已采纳你已经爬到图片连接了，这个看到的管道文件的代码怎样写，要对图片链接发送请求访问，然后保存才行
用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 18:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
python的scrapy爬取网站用法
2023-03-02 17:32

EaSoNgo111的博客打开 mySpider 目录下的 items.py，创建一个 ItcastItem 类，和构建 item 模型（model）BUG：引用mySpider/items.py 定义的 ItcastItem 类出现问题。打开mySpider/spider目录里的 itcast.py。
scrapy 爬取图片报错 error processing python
2021-12-20 01:08

回答 1 已采纳 http: 去那里啦?
scrapy 爬取商品视频url,详情失败 python
2022-02-17 10:28

回答 3 已采纳 js加载的，先打印看下获取的整个网页。我试了下，在下图这个位置可以找到视频链接，可以用正则或者别的方法取出来
scrapy爬取百度图片时Forbid spider access python 有问必答
2021-06-13 23:12

回答 2 已采纳这个是百度反爬虫导致的，
python-scrapy爬取网页编码为gb2312
2019-10-08 09:39

dlnj93539的博客最近两天在学scrapy,发现爬取编码为gb2312的网页时出现错误，解决后又出现中文乱码问题，弄了两天终于解决了 1.（测utf-8/gb2312可以成功调码解码） 1. import chardet print(chardet.detect(title)) py3用库...
scrapy 爬取图片时图片的url总是显示None python 有问必答
2021-12-04 01:41

回答 1 已采纳 img_url = div.xpath('./div/a/img/src').extract_first() src前面少了 @ 改成 img_url = div.xpath('./
关于#pythonscrapy#的问题，如何解决？ python 开发语言爬虫
2023-04-02 16:26

回答 2 已采纳好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com
Scrapy框架时爬取网页时报错 python 有问必答
2021-05-26 16:56

回答 2 已采纳你的数据清洗方法用错了，参考一下：https://blog.csdn.net/qq_43004728/article/details/84586628，如有帮助，望采纳
爬虫攻守道 - 2023最新 - JS逆向 - Python Scrapy实现 - 爬取某天气网站历史数据
2023-01-10 17:18

biaobro的博客爬虫与反爬虫 - 2023最新爬取某天气网站历史数据 - JS逆向 - Python实现
scrapy 怎么爬取网页中标签栏下的所有标签? python 爬虫
2022-10-19 14:43

回答 1 已采纳
Python爬虫-Scrapy框架（项目实战）- 爬取动态页面
2019-05-10 18:40

sunzhihao_future的博客 Python爬虫-Scrapy框架（项目实战）- 爬取动态响应页面
html结尾的网址爬取不了,scrapy爬取整个网页时如何避免链接失效
2021-06-19 01:45

zljchris的博客 scrapy爬取整个网页时如何避免链接失效最近在使用scrapy爬取网页时遇到很多图片不能正常显示、a标签链接失效的情况，多是因为爬下来的网页和图片路径已经失去了原有的结构，网页无法根据标签的src或者标签的href找到...
没有解决我的问题, 去提问

悬赏问题

¥15 import arcpy出现importing _arcgisscripting 找不到相关程序
¥15 onvif+openssl，vs2022编译openssl64
¥15 iOS 自定义输入法-第三方输入法
¥15 很想要一个很好的答案或提示
¥15 扫描项目中发现AndroidOS.Agent、Android/SmsThief.LI!tr
¥15 怀疑手机被监控，请问怎么解决和防止
¥15 Qt下使用tcp获取数据的详细操作
¥15 idea右下角设置编码是灰色的
¥15 全志H618ROM新增分区
¥15 在grasshopper里DrawViewportWires更改预览后，禁用电池仍然显示