scrapy +selenium 页面卡住问题

问题描述：
通过csv文件获得笔记本电脑的id，然后构建其完整的url地址，然后获得电脑的详情页面：
但是在运行过程中，刚开始正常运行，过一会selenium控制的浏览器就卡在一个电脑的详情页面不动了，在selenium控制的浏览器页面手动刷新就又可以正常跳转到接下啦的电脑详情页抓取信息，之后过一段时间，就又会卡住

这是什么原因啊？求大佬解答
ps:加了超时就刷新（2次）,还是没解决这个问题

下载器中间件代码

from selenium.common.exceptions import TimeoutException
from scrapy.http.response.html import HtmlResponse
from time import sleep
class JD_Spider_MiddleWare(object):
    def process_request(self, request, spider):
       return None

class JD_spider_MiddleWare_return(object):
    def process_response(self, request, response, spider):

        try:
          spider.browser.get(request.url)
        except TimeoutException as t1:  # 刷新页面，解决timeout的问题,若刷新后无法解决，则丢弃
          print("1连接超时：+ {}".format(t1))
          print('尝试重新连接......')
          try:
              spider.browser.refresh()
          except TimeoutException as t2:
              print("连接超时2次，将其抛弃，第二次出错信息：+ {}".format(t2))
          except Exception as e:
              print("页面无响应{}".format(e))
          else:
              print('重新连接成功!')
        except Exception as e:
          print("页面无响应+{}".format(e))

        if spider == 'jd':
          target = spider.browser.find_element_by_xpath("//div[@id='J_promGoodsWrap_292']")  # 定位下滑到的元素位置
          spider.browser.execute_script("arguments[0].scrollIntoView();", target)  # 拖动到下一页的位置
          sleep(20)
        return HtmlResponse(url=request.url, body=spider.browser.page_source, request=request, encoding='utf-8')

spider代码

import scrapy
import pandas
from JD_Computer_Spider.items import goods_detail
from selenium import webdriver
class computer_detail(scrapy.Spider):
    name = 'detail'

    def __init__(self):
        options = webdriver.ChromeOptions()
        options.add_argument('--log-level=3')
        self.browser = webdriver.Chrome(options=options)
        self.browser.maximize_window()  # 最大化窗口

    def start_requests(self):
        urls = []
        data = pandas.read_csv(r'./brands_computers.csv')['goods_id']
        for id in data:
            if len(id) < 100:
                goods_url = 'https://item.jd.com/' + str(id) + '.html'
                print(goods_url)
                urls.append(goods_url)
                yield scrapy.Request(url=goods_url, callback=self.parse, meta={'item': id})

    def parse(self, response):
        gd = goods_detail()
        gd['goods_id'] = response.meta['item']
        gd['goods_name'] = response.xpath("//div[@class='itemInfo-wrap/div[1]/text()']").extract_first()
        gd['goods_price'] = response.xpath("//span[@class='p-price']/span[2]/text()").extract_first()
        gd['goods_shop_name'] = response.xpath("//div[@class='name']/a/@title").extract_first()
        gd['goods_shop_href'] = response.xpath("//div[@class='name']/a/@href").extract_first()
        if gd['goods_shop_href'] is not None:
            gd['goods_shop_href'] = 'https' + gd['goods_shop_href']
        yield gd

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2020-09-07 23:33
关注
打开资源管理器，看看是不是有内存泄漏，可以分为2个程序，主控+爬虫，主控程序运行一段，把爬虫进程关闭重新启动。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy + selenium抓取到的网易云页面不完整 python 开发语言
2020-08-10 15:06

回答 1 已采纳 https://blog.csdn.net/lovemenghaibin/article/details/83111374
scrapy + selenium 抓取不到完整的网易云页面 python 开发语言
2020-08-10 15:18

回答 1 已采纳 https://blog.csdn.net/lovemenghaibin/article/details/83111374
scrapy用selenium闪退 python 爬虫
2022-03-28 00:22

回答 1 已采纳这种大概率都是浏览器驱动和浏览器版本不一致的问题吧
scrapy爬虫selenium模拟无法登陆和爬取的问题
2019-01-16 11:28

国师的玄兵是什么的博客使用selenium模拟浏览器进行数据抓取无疑是当下最通用的数据采集方案，它通吃各种数据加载方式，能够绕过客户JS加密，绕过爬虫检测，绕过签名机制。它的应用，使得许多网站的反采集策略形同虚设。由于selenium不会在...
scrapy框架+formdata+ajax爬取及翻页问题 python 数据挖掘测试用例
2020-03-25 14:18

回答 1 已采纳 def parse(self, response): result = eval(response.body.decode('utf-8')) 兄弟，你打印一下resu
scrapy-爬取京东笔记本电脑信息问题 chrome python selenium 开发语言
2020-09-01 19:12

回答 2 已采纳 ``` browser.quit() return HtmlResponse(url=request.url, body=browser.page_source, re
flask+scrapy的爬虫问题 flask json python 爬虫
2018-01-29 07:55

回答 3 已采纳你拿到参数后先写一个bat批处理 scrapy crawl myspider -a category=electronics 再 os.system(r'xx.bat') 来调用 https://d
最好的语言PHP + 最好的前端测试框架Selenium = 最好的爬虫
2019-09-13 07:46

chichuan2786的博客 4月干完后就是五一，当时觉得干不下去了，然后没事逛github看到了4月29号开的那个PR，这尼玛不就是我遇到的bug么，而且这个bug在google code那边几年了前就被提出了，这么巧刚好在我卡住的时候被解决了？于是觉得...
使用scrapy框架时导入selenium模块失败 python 爬虫
2021-09-04 13:52

回答 1 已采纳检查一下哪个python.exe执行的这个文件，找到python的完整路径，比如c:\python39\python.exe然后执行 c:\python39\python.exe -c "import
关于爬虫selenium的使用问题 python selenium
2022-05-05 22:19

回答 1 已采纳不建议使用自动化的selenium，慢
关于#pythonscrapy#的问题，如何解决？ python 开发语言爬虫
2023-04-02 16:26

回答 2 已采纳好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com
最好的语言 PHP + 最好的前端测试框架 Selenium = 最好的爬虫
2018-01-31 17:27

杨西瓜的博客也就是说你可以在你喜欢的编程语言下用 Selenium 在 Chrome 上开发好了爬虫，然后在生产环境直接把浏览器换成 phantomjs 就 ok 了， API 提供统一的 dom 、 js 注入、 cookie 管理、事件等待、浏览器控制和输入等...
scrapy爬虫翻页操作，python+scrapy python 其他有问必答
2021-04-02 17:02

回答 3 已采纳 # 导入所需库 import requests class Jdcomment_spider(object): # 请求头 headers = { 'User-A
python3 scrapy框架,Python3爬虫（十八） Scrapy框架（二）
2021-04-26 21:22

路过炊烟的博客对Scrapy框架(一)的补充Infi-chu:Scrapy优点：提供了内置的 HTTP 缓存，以加速本地开发。提供了自动节流调节机制，而且具有遵守 robots.txt 的设置的能力。可以定义爬行深度的限制，以避免爬虫进入死循环链接。会...
最好的语言 PHP + 最好的前端测试框架 Selenium = 最好的爬虫（下）
2016-12-06 15:24

ivan820819的博客 ...我由于原来搞 web 后端用 PHP 比较多，对 PHP 下的生态和第三方库啥的如数家珍，厂里对使用的语言也不做强制要求，所以我就用最拿手的 PHP 开搞了。有同学可能会觉得 PHP 下爬虫轮子似乎不多
没有解决我的问题, 去提问

悬赏问题

¥15 想问一下树莓派接上显示屏后出现如图所示画面，是什么问题导致的
¥100 嵌入式系统基于PIC16F882和热敏电阻的数字温度计
¥15 cmd cl 0x000007b
¥20 BAPI_PR_CHANGE how to add account assignment information for service line
¥500 火焰左右视图、视差（基于双目相机）
¥100 set_link_state
¥15 虚幻5 UE美术毛发渲染
¥15 CVRP 图论物流运输优化
¥15 Tableau online 嵌入ppt失败
¥100 支付宝网页转账系统不识别账号

scrapy +selenium 页面卡住问题

1条回答 默认 最新

悬赏问题

1条回答默认最新