关于爬虫selenium的使用问题

这是爬虫文件，就这个一个爬虫

class FirstSpiderSpider(scrapy.Spider):
    name = 'first_spider'
    allowed_domains = ['movie.douban.com']
    start_urls = ['https://read.douban.com/?dcm=original-nav']

    def parse(self, response):
        title = response.xpath('//*[@id="react-root"]/div/div/div[3]/div/div[2]/div/div/div[2]/div/div[1]/div['
                               '2]/h4/a/span/text()').extract_first()
        print(title)

有一个下载中间件，而且启用了

class LolDownloaderMiddleware:
    def process_request(self, request, spider):
        url = request.url
        # 开启selenium
        driver = webdriver.PhantomJS(executable_path=r'D:\tool\phantomjs-2.1.1-windows\bin\phantomjs.exe')
        driver.get(url)
        c = driver.find_element(By.XPATH, '//*[@id="react-root"]/div/div/div[3]/a[1]')
        c.click()
        time.sleep(1)
        data = driver.page_source  # 获取页面源代码
        driver.close()  # 关闭selenium
        return HtmlResponse(url=url, body=data, encoding='utf-8', request=request)

我的问题就是它的执行流程，爬虫启动一开始，注意我说的最开始，start_urls里面的这个唯一地址，是先经过下载中间件，再到下载器，然后再返回给爬虫处理？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Mint.Coder 2022-05-06 07:21
关注
不建议使用自动化的selenium，慢

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫使用selenium切换窗口问题 python selenium 有问必答爬虫
2022-03-18 12:30

回答 2 已采纳 driver.swith_to.window(driver.window_handles[1]),函数名写错了，不是swith是switch，少写了个c，改成：driver.switch_to.win
关于爬虫selenium的使用问题 python selenium
2022-05-05 22:19

回答 1 已采纳不建议使用自动化的selenium，慢
python爬虫selenium点击按钮 python selenium 爬虫
2022-10-21 12:35

回答 2 已采纳可以看下xpath语法，还有个插件（xPath Finder）在firefox浏览器里可以一键定位到元素并复制xpath路径，如果插件给出的xpath路径定位不到，可以尝试自己写相对路径
python爬虫使用selenium 实现中英互译
2022-03-23 14:30

1. 翻译器分为exe版和py源文件版 2.压缩包内有使用说明 3.必应翻译没有加密，适合初学selenium的人学习 4.欢迎学习交流
关于爬虫selenium遇到的问题 python 爬虫
2022-08-10 20:28

回答 3 已采纳因为网址更新了，现在是iframe[title = 'livere-comment']
python爬虫selenium基础问题，异常报错 python selenium 爬虫
2021-08-04 10:07

回答 1 已采纳错误提示告诉你，你获取的内容的编码问题，你的程序是按GBK的编码方式取的内容，换种编码。
Python爬虫 Selenium定位元素问题 html5 python selenium
2020-12-25 16:03

回答 3 已采纳你好，可以通过xpath定位。打开F12，定位到元素上右键Copy-Copy Xpath即可获得该元素的xpath
python爬虫——selenium
2023-03-19 18:56

杜小白也想的美的博客本文涉及了selenium在爬虫中的应用，包括定位元素，节点操作，添加cookie，反屏蔽等常用操作以及seleium中部分API源码分析
python 爬虫 selenium 驱动安装出错 python selenium 爬虫
2022-02-11 20:26

回答 4 已采纳如果楼上的不行再试试我的 if __name__ == '__main__': # 输入 Driver 的绝对路径 driver_path = 'C:\edgedriver_win6
爬虫selenium打开Chrome浏览器闪退 python 爬虫
2022-11-09 18:59

回答 3 已采纳
爬虫selenium如何下载验证码图片 python selenium 爬虫
2022-04-27 18:29

回答 1 已采纳使用session发送请求；获取验证码图片，以及发送验证码数据应该在同一个session请求中：发送URL请求，得到验证码图片URL访问图片URL，下载验证码图片发送验证码数据 ----------
python爬虫 selenium多端口
2023-08-03 22:17

电脑没内存了找个地方存一下代码
python爬虫Selenium报错 python web安全
2022-09-03 18:37

回答 2 已采纳 find_enment写错了，是find_element
Python爬虫基础之Selenium详解
2023-10-17 10:34

大Null的博客围绕 Selenium 库展开讲解如何使用自动化工具操作浏览器。
python使用selenium爬虫知乎的方法示例
2020-12-16 21:07

说起爬虫一般想到的情况是，使用 python 中都通过 requests 库获取网页内容，然后通过 beautifulSoup 进行筛选文档中的标签和内容。但是这样有个问题就是，容易被反扒机制所拦住。反扒机制有很多种，例如知乎：刚...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月5日

悬赏问题

¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效

关于爬虫selenium的使用问题

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新