scrapy框架下用splash爬取http://quotes.toscrape.com/js/页面

已经采用docker下载完splash

然后也输入了 docker run -p 8050:8050 scrapinghub/spalsh 并看到成功提示信息

其中项目的setting.py相关配置：

# splash 服务器地址
SPLASH_URL = 'http://localhost:8050'

# 开启splash的两个下载中间件， 并调整HttpCompressionMiddleware的次序
DOWNLOAD_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

# 设置去重过滤器
DUPEFIlTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

# 用来支持cache_args(可选)
SPIDER_MIDDLEWARES = {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

之后在scrapy shell中进行调试：

还是爬取不到数据，自己也不知道错在了哪里，真诚希望能够得到指导，非常感谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-07 17:07
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
你可以参考下这篇文章：scrapy中关于Splash的使用

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy爬虫出现 DEBUG: Crawled (404) python
2019-04-17 16:25

回答 1 已采纳如果楼主是用scrapy框架爬的话，可以在settings.py加上User-Agent信息，这样应该就可以了
SCRAPY运行报错， [scrapy.core.engine] INFO: Spider closed (finished)！ python
2021-07-26 15:56

回答 2 已采纳这个就是正常爬完了的日志信息吧，没啥问题啊
利用Scrapy框架爬虫时出现报错ModuleNotFoundError: No module named 'scrapytest.NewsItems'？ python
2019-11-15 23:52

回答 2 已采纳 import scrapy #引入容器 from scrapytest.NewsItems import NewsItem 改为 from scrapytest.items import Ne
使用Splash爬取动态网页quotes.toscrape.com使用示例
2023-12-23 16:21

首先，`Scrapy`是一个强大的Python爬虫框架，而`Splash`是与`Scrapy`集成的一个好伙伴。`Scrapy`本身并不执行JavaScript，但可以通过`Scrapy-Splash`插件与`Splash`服务器通信，从而实现对动态内容的抓取。要开始...
爬虫scrapy框架爬不出来，但是request可以出来 http python 爬虫
2022-05-06 00:26

回答 2 已采纳你应该继承 scrapy.SpiderCrawlSpider 不要自定义 parse 函数。
从url获取到了response却无法获取到response中的具体内容，response.text显示{code:0,msg:'limited'} python webview
2022-01-10 16:51

回答 1 已采纳加个请求头 import requests url = 'https://item-soa.jd.com/getWareBusiness?skuId=100012809042&cat=737,794
在 python scrapy爬虫框架：response.xpath（）的返回值是[ ],这个怎么解决？ python
2020-07-03 11:16

回答 4 已采纳考虑网页的内容使用了ajax，使用右键-》查看网页源代码，看是否仍然能获得指定的内容
爬虫框架Scrapy（12）爬取动态页面
2021-04-12 14:31

Python@达人的博客文章目录爬取动态页面（一）Splash 渲染引擎1. render.html 端点2. execute 端点3. 常用属性与方法（1）Splash 对象的属性（2）Splash 对象的方法（二）安装 Scrapy-Scrapy1. 安装 splash 服务器2. 安装 Scrapy-...
python运行scrapy框架出现报错 NameError: name 'imp' is not defined python
2022-04-28 23:20

回答 7 已采纳如果你不记得改了什么的话，重装吧。毕竟你改了啥，怎么改回去就只有神才知道了。环境里面的.py文件改了的话基本没什么方法，除了重装。按报错来看，playwright, pyee,twisted,win3
在以瀑布流方式翻页的网站,使用scrapy网络爬虫,但是只爬取了第一页数据,没有爬取第二页. python 爬虫
2021-09-05 19:18

回答 2 已采纳那叫ajax，
用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 18:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
Python爬虫
2021-09-30 12:41

_森罗万象的博客 Python爬虫
scrapy 报错：Missing scheme in request url: h python 爬虫
2016-03-06 01:42

回答 1 已采纳 http://stackoverflow.com/questions/21103533/missing-scheme-in-request-url
scrapy+splash爬取动态网页
2018-08-23 09:56

S7777777S的博客 1.环境：windows x64位，scrapy，splash，python3.6，Eclipse4.4，pydev4.4.5,virtual box5.2,Centos-7-x86-64-minimal-1708 2.首先去官网下载python3.6，进行安装，安装注意要把python勾选加入系统path。 3.打开...
Python3网络爬虫开发实战（7）JavaScript 动态渲染页面爬取
2024-07-28 17:04

Bigcrab__的博客 selenium，splash，playwright，没有 pyppeteer，因为 pyppeteer 无人维护
没有解决我的问题, 去提问

悬赏问题

¥15 SPSS分类模型实训题步骤
¥15 求解决扩散模型代码问题
¥15 工创大赛太阳能电动车项目零基础要学什么
¥20 limma多组间分析最终p值只有一个
¥15 nopCommerce开发问题
¥15 torch.multiprocessing.spawn.ProcessExitedException: process 1 terminated with signal SIGKILL
¥15 QuartusⅡ15.0编译项目后，output_files中的.jdi、.sld、.sof不更新怎么解决
¥15 pycharm输出和导师的一样，但是标红
¥15 想问问富文本拿到的html怎么转成docx的
¥15 我看了您的文章，遇到了个问题。

scrapy框架下用splash爬取http://quotes.toscrape.com/js/页面

1条回答 默认 最新

悬赏问题

1条回答默认最新