scrapy+selenium selenium操作出现异常如何返回请求重新执行新的请求

利用selenium+scrapy框架爬虫时，selenium在中间件的检索等自动化操作时遇到了已预知可承受的异常，如搜索不出结果的TimeoutException异常，怎样返回spiders的start_rqeuests继续下一次请求，且检索的内容是由列表构成的，循环遍历检索，出现异常后则跳过列表中该元素检索下一元素。


    def start_requests(self):
        # company_sum_list = get_all_company("昆山市")
        # company_before_list = get_company_before()
        # company_list = [company for company in company_sum_list if company not in company_before_list]
        company_list = ['公司1', '公司2']
        for company in company_list:
            for url in self.start_urls:
                # 第一次请求（使用Selenium中间件）
                yield scrapy.Request(url, callback=self.parse, meta={'use_selenium': True, 'company_name': company})
 
 
    def process_request(self, request, spider):
        if request.meta.get('use_selenium'):
            url = request.url
            company = request.meta.get('company_name')
            try:
                spider.driver.get(url)
                time.sleep(2)
 
                # 模拟搜索操作
                
                # 等待搜索结果加载
                WebDriverWait(spider.driver, 5).until(
                    EC.presence_of_element_located(By.XPATH, "//table[@class='result-table-list']"))
                html = spider.driver.page_source
                # spider.driver.close()
                # 提交搜索结果
                return HtmlResponse(url, body=html, encoding='utf-8', request=request)
            except TimeoutException:
                print(company")
                # 这里怎么返回？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-07-23 16:15
关注
以下内容由AIGC及阿里嘎多学长共同生成、有用望采纳：

在使用 Scrapy 和 Selenium 进行爬虫操作时，处理异常和继续执行请求是一个常见的需求。以下是针对你提出的问题的一些建议和代码示例：

处理可预知异常：在 process_request 方法中，你已经使用了 try-except 结构来捕获 TimeoutException。如果需要跳过当前操作，可以在 except 块中添加逻辑来记录异常并继续执行循环。

继续执行新的请求：在 except 块中，你不能直接生成一个新的请求并返回到 start_requests 方法，因为 process_request 方法的目的是处理单个请求。但是，你可以记录下异常，并让 start_requests 方法决定是否需要重新生成请求。

处理循环遍历中的异常：在 start_requests 方法中，你已经通过 for 循环遍历 company_list。当 process_request 方法捕获到异常时，它应该记录这个异常，但不应该中断整个爬虫的执行。

正确处理异常并返回：在 process_request 方法的 except 块中，你可以打印出当前遇到异常的 company 名称，并决定是否需要采取进一步的行动。通常，你不需要在这里生成新的请求，而是应该让 start_requests 方法来处理。

以下是一个修改后的代码示例，展示了如何在捕获异常时记录异常，并在 start_requests 方法中根据需要重新生成请求：

class MySpider(scrapy.Spider): # ... 其他代码 ... def start_requests(self): company_list = ['公司1', '公司2'] for company in company_list: for url in self.start_urls: yield scrapy.Request(url, callback=self.parse, meta={'use_selenium': True, 'company_name': company}) def process_request(self, request, spider): if request.meta.get('use_selenium'): try: # ... Selenium 操作 ... except TimeoutException as e: print(f"TimeoutException occurred for company: {request.meta['company_name']}") # 可以选择在这里记录日志或者采取其他行动 # 但是不要在这里生成新的请求 def parse(self, response): # 处理正常响应的逻辑 pass def start_requests_on_error(self): # 这个方法可以在异常发生后被调用，以重新生成请求 company_list = ['公司1', '公司2'] # 假设这是从错误中恢复的公司列表 for company in company_list: for url in self.start_urls: yield scrapy.Request(url, callback=self.parse, meta={'use_selenium': True, 'company_name': company}) @classmethod def from_crawler(cls, crawler, *args, **kwargs): spider = super(MySpider, cls).from_crawler(crawler, *args, **kwargs) # 为spider添加一个属性来跟踪是否需要重新生成请求 spider.needs_restart = False return spider # 这个方法可以在异常发生后调用 start_requests_on_error def closed(self, reason): if getattr(self, 'needs_restart', False): self.crawler.engine.open_spider(self, self.start_requests_on_error)

请注意，这个示例代码只是一个框架，你需要根据你的具体需求来调整和完善它。例如，你可能需要添加逻辑来决定何时调用 start_requests_on_error 方法，以及如何跟踪哪些公司需要重新处理。此外，确保你的异常处理逻辑不会无限循环地重新生成请求。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy + selenium抓取到的网易云页面不完整 python 开发语言
2020-08-10 15:06

回答 1 已采纳 https://blog.csdn.net/lovemenghaibin/article/details/83111374
scrapy + selenium 抓取不到完整的网易云页面 python 开发语言
2020-08-10 15:18

回答 1 已采纳 https://blog.csdn.net/lovemenghaibin/article/details/83111374
scrapy用selenium闪退 python 爬虫
2022-03-28 00:22

回答 1 已采纳这种大概率都是浏览器驱动和浏览器版本不一致的问题吧
【Python爬虫--scrapy+selenium框架】超详细的Python爬虫scrapy+selenium框架学习笔记（保姆级别的，非常详细）
2024-05-31 21:24

学网安的A的博客 Python爬虫--scrapy+selenium框架】超详细的Python爬虫scrapy+selenium框架学习笔记（保姆级别的，非常详细）
使用scrapy框架时导入selenium模块失败 python 爬虫
2021-09-04 13:52

回答 1 已采纳检查一下哪个python.exe执行的这个文件，找到python的完整路径，比如c:\python39\python.exe然后执行 c:\python39\python.exe -c "import
scrapy中运行selemium填写验证码，browser启动后语句不执行 python selenium 有问必答爬虫
2021-12-16 14:44

回答 1 已采纳你在代码加个print()看看具体执行到哪一步
scrapy部署在服务器运行一段时间出现ERROR: Error downloading selenium ubuntu 爬虫
2022-08-09 17:43

回答 1 已采纳服务器掉网？？应该不会，你在服务器的那个控制平台不是可以看网络监控嘛？应该不是断网的问题。可能就是被反爬，你爬的数据多，一段时间内请求多，一般都会被反扒，而你又没有设置代码
scrapy+selenium之中国裁判文书网文书爬取
2020-12-23 01:22

爬取框架：scrapy框架 + selenium模拟浏览器访问开始想暴力分析网页结构获取数据，哈哈哈哈哈，天真了。看来自己什么水平还真不知道。之后锁定pyspider框架，搞了四五天。该框架对于页面超链接的连续访问问题，...
关于爬虫selenium的使用问题 python selenium
2022-05-05 22:19

回答 1 已采纳不建议使用自动化的selenium，慢
selenium进行浏览器遍历打开网页时，只有第一个能成功，第二个提示'WebDriver' object has no attribute 'driver_choose' selenium
2020-03-25 16:07

回答 1 已采纳你的变量名driver和库的成员名driver重名了。 ``` for text in browser_text: print(browser) brw = driver
scrapy-爬取京东笔记本电脑信息问题 chrome python selenium 开发语言
2020-09-01 19:12

回答 2 已采纳 ``` browser.quit() return HtmlResponse(url=request.url, body=browser.page_source, re
Python爬虫实战 | (21) Scrapy+Selenium爬取新浪滚动新闻-附件资源
2021-03-02 15:07

Python爬虫实战 | (21) Scrapy+Selenium爬取新浪滚动新闻-附件资源
用scrapy爬到一半时停止并报错invalid session id python 爬虫
2022-01-04 16:58

回答 1 已采纳这位博友情况跟你的有点类似，你可以借鉴一下 https://blog.csdn.net/weixin_35757704/article/details/120706276
scrapy+selenium
2024-05-18 20:36

爬虫囦的博客记录scrapy+selenium
scrapy结合selenium解析动态页面的实现
2020-12-16 20:43

虽然scrapy能够完美且快速的抓取静态页面，但是在现实中，目前绝大多数网站的页面都是动态页面，动态页面中的部分内容是浏览器运行页面中的JavaScript脚本动态生成的，爬取相对困难；比如你信心满满的写好了一个...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月23日

悬赏问题

¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见
¥15 一共有五道问题关于整数幂的运算还有房间号码还有网络密码的解答？(语言-python)
¥20 sentry如何捕获上传Android ndk 崩溃
¥15 在做logistic回归模型限制性立方条图时候，不能出完整图的困难
¥15 G0系列单片机HAL库中景园gc9307液晶驱动芯片无法使用硬件SPI+DMA驱动，如何解决？

scrapy+selenium selenium操作出现异常如何返回请求重新执行新的请求

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新