使用python scrapy+ selenium时，用yield item 提交出现错误

这是爬虫文件

import scrapy
from selenium import webdriver
from  selenium.webdriver.chrome.options import Options    # 使用无头浏览器
from selenium.webdriver import ActionChains
import time
# from scrapy.http import HtmlResponse
from weiqi.items import FileItem


chorme_options = Options()
chorme_options.add_argument("--headless")
chorme_options.add_argument("--disable-gpu")

# 检查元素是否存在
def check_element_exists(driver, element, condition):
    try:
        if condition == 'class':
            driver.find_element_by_class_name(element)
        elif condition == 'id':
            driver.find_element_by_id(element)
        elif condition == 'xpath':
            driver.find_element_by_xpath(element)
        return True
    except Exception as e:
        return False

class Number1Spider(scrapy.Spider):
    name = 'number2'
    # allowed_domains = ['www.asxs.net']
    start_urls = ['https://www.101weiqi.com/newbook/#/book/42983/']
    
    def __init__(self):
            self.bro = webdriver.Chrome()
            super().__init__()

    def parse(self, response):
        print(response)
        url='https://www.101weiqi.com/newbook/#/book/42983/'
        yield scrapy.Request(url,callback=self.parse_page,meta={'is_bro':True})
        pass

    def parse_page(self,response):
        
        #点击进入题目列表页
        self.element_click('//*[@id="root"]/div/div[2]/div/div/div/div[1]')
        time.sleep(3)
        #获取图片地址
        print('get_img')
        self.get_img_urls(response)
        
    #通过xpath获取元素并单击
    def element_click(self,xpath):
        soutu_btn = self.bro.find_element_by_xpath(xpath)  # 将需要单击的WebElement对象定义为day
        actions = ActionChains(self.bro)  # 实例化Actions类对象: actions, 并将driver传给actions
        actions.move_to_element(soutu_btn).click().perform()
    
    def get_img_urls(self,response):
        print('geting_imgsrc')
        img_url =self.bro.find_elements_by_xpath('//div[@class="sc-gGCDDS tzeuw"]//img')
        path_name = self.bro.find_elements_by_xpath('//*[@id="root"]/div/div[2]/div/div[1]/div[1]/span[3]')[0].text
        
        file_urls = []
        file_names = []
        for link in img_url:
            file_urls.append(link.get_attribute('src'))
            file_names.append(link.get_attribute('src').split('/')[-1])
            
        item = FileItem()
        
        item['file_names'] = file_names
        item['file_urls'] = file_urls
          #这里，只要用yield item ，就会导致整个函数不再运行。
          #如果只是print 出来，是没有问题的
        yield item      
        
    def closed(self,spider):
        print('关闭浏览器对象!')
        self.bro.quit()

最后使用yield 提交item的时候，会导致整个get_img_urls函数不运行。

我尝试过将yield item 单独写一个函数，则只要有yield item的函数就不运行。换成print(item)则可以正常打印出来。
下面是同一个工程下的另一个爬虫，yield item 没有问题。

import scrapy
from selenium import webdriver
from weiqi.items import FileItem
from  selenium.webdriver.chrome.options import Options    # 使用无头浏览器

chorme_options = Options()
chorme_options.add_argument("--headless")
chorme_options.add_argument("--disable-gpu")


class Number1Spider(scrapy.Spider):
    name = 'number1'
    # allowed_domains = ['www.asxs.net']
    start_urls = ['https://www.101weiqi.com/newbook/#/chapter/53608/']

    def __init__(self):
            self.bro = webdriver.Chrome()
            super().__init__()

    #获取索引页内容
    def parse(self, response):       

        imgs = response.xpath('//div[@class="sc-gGCDDS tzeuw"]//img/@src').extract()
        imgname = []
        for imgurl in imgs: 
            imgname.append(imgurl.split('/')[-1])
        print(imgname)
            
        item = FileItem()
        item['file_urls'] = imgs
        item['file_names'] = imgname
        print(item)
        yield item


    def closed(self,spider):
        print('关闭浏览器对象!')
        self.bro.quit()

实在找不到原因，请各位朋友帮忙！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
好头发用飘影 2022-10-17 23:11
关注
自己改了下，把item放到了parse函数中去yield。
获取过程写成函数，然后把item传回parse中。
这样就可以正常提交了。

不知道为什么？是因为除了parse函数外，其他函数无法提交item吗？

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy + selenium抓取到的网易云页面不完整 python 开发语言
2020-08-10 15:06

回答 1 已采纳 https://blog.csdn.net/lovemenghaibin/article/details/83111374
scrapy + selenium 抓取不到完整的网易云页面 python 开发语言
2020-08-10 15:18

回答 1 已采纳 https://blog.csdn.net/lovemenghaibin/article/details/83111374
使用scrapy框架时导入selenium模块失败 python 爬虫
2021-09-04 13:52

回答 1 已采纳检查一下哪个python.exe执行的这个文件，找到python的完整路径，比如c:\python39\python.exe然后执行 c:\python39\python.exe -c "import
python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取
2022-04-13 01:08

JayceeeQAQ的博客 python爬虫–Scrapy框架前言框架结构 start -> 爬虫提交链接request给middlewares -> middlewares发送request给网页 -> middlewares发送response给爬虫 ->爬虫解析response返回的对象 -> pipeline...
scrapy用selenium闪退 python 爬虫
2022-03-28 00:22

回答 1 已采纳这种大概率都是浏览器驱动和浏览器版本不一致的问题吧
scrapy爬虫翻页操作，python+scrapy python 其他有问必答
2021-04-02 17:02

回答 3 已采纳 # 导入所需库 import requests class Jdcomment_spider(object): # 请求头 headers = { 'User-A
python运行scrapy框架出现报错 NameError: name 'imp' is not defined python
2022-04-28 23:20

回答 7 已采纳如果你不记得改了什么的话，重装吧。毕竟你改了啥，怎么改回去就只有神才知道了。环境里面的.py文件改了的话基本没什么方法，除了重装。按报错来看，playwright, pyee,twisted,win3
python爬虫实战 scrapy+selenium爬取动态网页
2023-04-16 15:15

栀子枝头盛的博客使用scrapy对接selenium完成对动态网站的爬取
Python中scrapy.FormRequest老是返回400错误响应 python
2022-09-17 21:20

回答 2 已采纳你可以参考下这篇文章：scrapy框架中的Request()、FormRequest()、FormRequest.from_response()的小结
python爬虫scrapy python 有问必答
2021-07-22 10:03

回答 2 已采纳看下数据是否是动态加载的，多抓几次包，分析下；可能需要通过添加page参数，进行爬取！
python3 scrapy Request 请求时怎么保持headers 的参数首字母不大写 python 数据挖掘
2019-05-15 16:44

回答 1 已采纳在spider文件中spider类的上面写下不希望首字母大写的header ``` from twisted.web.http_headers import Headers as TwistedH
使用 Scrapy + Selenium 爬取动态渲染的页面
2022-06-06 18:12

软件测试大空翼的博客在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url...
使用python scrapy框架写爬虫如何爬取搜狐新闻的参与人数？ python 爬虫
2016-03-29 10:07

回答 2 已采纳这个是可能异步ajax返回的，所以需要用selenium等webdriver来处理
Scrapy+Selenium的使用
2019-08-30 15:50

skywinne的博客 Scrapy+Selenium的使用一、新建项目二、定义item三、Spider四、对接selenium五、存储，暂时先存本地六、爬取数据如下现在大多数网站反爬严格，通过js实现了数据的加密，破解起来非常吃力，用Selenium可以很好的绕过...
Scrapy + selenium + 超级鹰验证码识别爬取网站
2022-09-05 10:15

李甜甜~的博客使用scrapy+ selenium + 超级鹰
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 10月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月17日

悬赏问题

¥60 求一个简单的网页(标签-安全|关键词-上传)
¥35 lstm时间序列共享单车预测，loss值优化，参数优化算法
¥15 基于卷积神经网络的声纹识别
¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图

使用python scrapy+ selenium时，用yield item 提交出现错误

使用python scrapy+ selenium时，用yield item 提交出现错误

这是爬虫文件

最后使用yield 提交item的时候，会导致整个get_img_urls函数不运行。

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新