刚学习用scrapy + selenium爬动态网页，但是不知道为什么就是不行，下面是代码，求大神指点！！！

MySpider里面是这样的：

class MySpider(scrapy.Spider):
    name = 'BAIScrapy'

    def start_requests(self):
        print('开始')
        url = 'https://www.bilibili.com/'
        request = scrapy.Request(url=url, callback=self.parse, dont_filter=True)
        request.meta['PhantomJS'] = True
        yield request

    def parse(self, response):
        print('Emmm...')
        item = BilibiliAnimeInfoScrapyItem()
        item['links'] = response.css('a::attr("href")').re("www.bilibili.com/bangumi/play/")

middlewares里面是这样的：

    def process_reqeust(self, request, spider):
        print('进入selenium')
        driver = webdriver.PhantomJS()
        driver.get(request.url)
        element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID,'bili_bangumi')))
        driver.quit()
        yield HtmlResponse(url=request.url, encoding='utf-8', body=driver.page_source, request=request)

settings里面是这样的：

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'


ROBOTSTXT_OBEY = False

DOWNLOADER_MIDDLEWARES = {
    'bilibili_anime_info_scrapy.middlewares.BilibiliAnimeInfoScrapyDownloaderMiddleware': 543,
}

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2018-12-07 15:56
关注
https://blog.csdn.net/sinat_40431164/article/details/81200207

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy + selenium抓取到的网易云页面不完整 python 开发语言
2020-08-10 15:06

回答 1 已采纳 https://blog.csdn.net/lovemenghaibin/article/details/83111374
scrapy + selenium 抓取不到完整的网易云页面 python 开发语言
2020-08-10 15:18

回答 1 已采纳 https://blog.csdn.net/lovemenghaibin/article/details/83111374
初学python爬虫，爬取不到网页的阅读数是怎么回事？求大神解答 python
2021-03-07 11:27

回答 3 已采纳数据是js动态渲染的，scrapy需结合splash使用，用selenium速度虽慢点，但是对js加载数据的获取准确性较高。 driver.implicitly_wait(5) #page=dri
python爬虫——scrapy+selenium爬取新浪微博及评论
2019-01-21 21:24

csdn950212的博客本项目利用python的scrapy框架+selenium模拟登陆微博来爬取带有关键字的微博及微博下面的评论（1 、2级评论）。当时自己比较关注“小凤雅事件”，而微博又是舆论的战场，就想爬取“小凤雅事件”的相关微博以及评论...
scrapy 爬虫大量链接返回None不知道为啥 python
2020-05-29 14:50

回答 2 已采纳 200说明成功了，返回None是因为你返回值本来就设置成None，或者没设置返回值导致python默认返回None
scrapy用selenium闪退 python 爬虫
2022-03-28 00:22

回答 1 已采纳这种大概率都是浏览器驱动和浏览器版本不一致的问题吧
python爬虫scrapy python 有问必答
2021-07-22 10:03

回答 2 已采纳看下数据是否是动态加载的，多抓几次包，分析下；可能需要通过添加page参数，进行爬取！
Scrapy+Selenium无法定位元素问题
2023-08-31 15:40

weixin_41021968的博客 scrapy爬虫框架+selenium进行网页动态数据抓取，但是遇到了一个问题困扰很久了一直解决不了，求哪位大神帮我看一下，一定重谢！所以不知道问题出在哪了，就是单独使用selenium没问题，但是在scrapy框架中使用就报错...
python scrapy爬虫如果想要下一页但是没有href python 爬虫
2022-12-14 00:18

回答 1 已采纳你要模拟参数，具体代码如下： import http.client conn = http.client.HTTPSConnection("chl.cn") #page 5 #submit 下一页
爬虫scrapy框架爬不出来，但是request可以出来 http python 爬虫
2022-05-06 00:26

回答 2 已采纳你应该继承 scrapy.SpiderCrawlSpider 不要自定义 parse 函数。
scrapy爬虫翻页操作，python+scrapy python 其他有问必答
2021-04-02 17:02

回答 3 已采纳 # 导入所需库 import requests class Jdcomment_spider(object): # 请求头 headers = { 'User-A
scrapy+splash爬取动态js网页爬过的坑记录
2020-07-09 17:48

.树懒.的博客因为现在的网页大部分都是动态网页，不是静态网页了，对于爬取动态的网页有以下这几种做法我而我选择了scrapy+splash，看我对他们分析，不对的地方请大神指出。 1.scrapy + selenium 2.scrapy + splash 首先这两者...
为什么我的scrapy爬不到数据了 python
2020-09-05 13:48

回答 1 已采纳 small_link = 'http:'+li.xpath('./@href').extract_first() 这里错了 response.urljoin(li.xpath('./@href')
scrapy+selenium按照某一主题爬取zhihu相关内容
2020-07-18 12:35

VerdureChen的博客这样做的好处在于知乎问题详情页是可以使用selenium爬取的，不必与反爬斗智斗勇，也就不用担心万一很快进一步升级反爬策略后爬虫失效，不足之处在于爬取速度肯定比不上requests请求，不过对我来说影响不是很大，所以...
python爬虫用什么编程软件下载_python大神们！都在用的什么爬虫工具呢？
2020-11-30 07:46

weixin_39646688的博客 Python开发爬虫常用的工具总结reqeusts：Python HTTP网络请求库;pyquery： Python HTML DOM结构解析库，采用类似JQuery的语法;...phantomjs：无头浏览器，可以配合selenium获取js动态加载的内容;re：pytho...
没有解决我的问题, 去提问

悬赏问题

¥15 vue3+express部署到nginx
¥20 搭建pt1000三线制高精度测温电路
¥15 使用Jdk8自带的算法，和Jdk11自带的加密结果会一样吗，不一样的话有什么解决方案，Jdk不能升级的情况
¥15 画两个图 python或R
¥15 在线请求openmv与pixhawk 实现实时目标跟踪的具体通讯方法
¥15 八路抢答器设计出现故障
¥15 opencv 无法读取视频
¥15 按键修改电子时钟，C51单片机
¥60 Java中实现如何实现张量类，并用于图像处理(不运用其他科学计算库和图像处理库）)
¥20 5037端口被adb自己占了