求助:关于scrapy框架爬取不到网页源码的文本内容，scrapy的没有优先请求start_url？

初学爬虫，自己做练习。万分感谢大佬们解答。

先通过https://stockx.com/sneakers/中的源码获取该页面四十个款式的详情页，再对详情页进行请求。代码为测试阶段，暂时先选取第一个款式的链接进行测试。该链接为https://stockx.com/adidas-yeezy-boost-350-v2-core-black-red-2017。

问题：

（1）start_url里的链接是https://stockx.com/sneakers/，在parse函数中选取第一个款式的链接，通过yield回调到parse_detail函数。程序运行时，chromedriver直接就打开详情页链接而不是start里的链接（因为每次打开有一个地区语言的选择，暂时还不会scrapy的cookie导入），所以后面代码里只好在详情页的中加了一行地区选择语言确认按钮点击的代码。求大佬解答。

（2）在请求详情界面时，为获取详情页面中的货号，颜色，发售价等信息时，（代码中仅测试货号）使用response.xpath 和response.css都获取不到文本信息。求大佬解答。

以爬取网页中的货号为例

代码如下

stock.py
import scrapy
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
class StockxSpider(scrapy.Spider):
    name = 'stockx'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://stockx.com/sneakers/']
    urls = []#详情页链接
    labels = []#款式
    #浏览器初始化
    def __init__(self):
        self.option = Options()
        self.option.add_experimental_option('excludeSwitches', ['enable-automation'])
        self.bro = webdriver.Chrome(executable_path='./chromedriver.exe', options=self.option)
        script = 'Object.defineProperty(navigator,"webdriver",{get:()=>undefined,});'
        self.bro.execute_script(script)
    #获取款式的详情页链接以及款式名
    def parse(self, response):
        div_list = response.xpath('//div[@class="browse-grid loading undefined"]/div[2]/div')
        for div in div_list:
            url = div.xpath('./div/a/@href').extract_first()
            label = url[1:]
            url = 'https://stockx.com/' + label
            self.urls.append(url)
            self.labels.append(label)
        for url in self.urls:
            break
        yield scrapy.Request(url = url, callback = self.parse_detail)
    #爬取货号
    def parse_detail(self, response):
        style = response.xpath('//div[@class="product-info"]/div/div[1]/span/text()').extract_first()
        style1 = response.css('.product-info > div > div:nth-of-type(1) > span ::text').extract_first()
        print(style)
        print(style1)

middlewares.py的主要代码部分
def process_response(self, request, response, spider):
        bro = spider.bro
        if request.url in spider.start_urls:#请求链接在初始链接池中
            bro.get(request.url)
            sleep(2)
            bro.find_element_by_css_selector('.css-8c8ied').click()
            page_text = bro.page_source
            new_response = HtmlResponse(url=request.url, body=page_text, encoding='utf-8', request=request)
            return new_response
        elif request.url in spider.urls: #请求链接为详情页
            bro.get(request.url)
            sleep(2)
            bro.find_element_by_css_selector('.css-8c8ied').click()#由于chrome直接打开详情页，就在这也加上了语言地区的确认按钮
            page_text = bro.page_source
            new_response = HtmlResponse(url=request.url, body=page_text, encoding='utf-8', request=request)
            return new_response
        else:
            return response

程序运行结果

用response.xpath和css爬取货号得到的都是空值,xpath和css的路径应该没有写错,求大佬解答,万分感谢。

通过打印response.text 检索发现没有product-info的类，通过打印response.xpath('//div[@class="product-info"]/div/div[1]/span/text()')偶尔可以爬取到三个selector列表，第二个中有data=货号的数据，但是再代码后面加上extract_first（），输出结果仍为空。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-07 17:06
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
这篇文章讲的很详细，请看：关于Scrapy图片批量下载的用法及详细代码详解，scrapy图片重命名、放入不同文件夹。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？ mysql python sql
2018-02-09 09:34

回答 3 已采纳 1. 把整个爬取到的网页内容直接存储到数据库肯定是可以的，你之所以没有成功，应该是因为你的数据库中的相应字段错了，整个网页内容都比较长，一般都是要用text字段，甚至是LongText)（最大长度42
scrapy 怎么爬取网页中标签栏下的所有标签? python 爬虫
2022-10-19 14:43

回答 1 已采纳
scrapy中start_requests指定回调函数为何没有调用 python 有问必答爬虫
2022-01-20 23:02

回答 2 已采纳改成这样试试 yield scrapy.Request(url=login_url, headers=header, body=json.dumps(param), method='
python爬虫scrapy框架爬取网页数据_Python爬虫：Scrapy框架基础框架结构及腾讯爬取...
2020-11-21 03:28

weixin_39980575的博客原标题：Python爬虫：Scrapy框架基础框架结构及腾讯爬取Scrapy终端是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath或CSS表达式，查看他们的工作方式，方便我们爬取的网页中提取...
scrapy爬取图片，爬取不到 python 有问必答
2021-05-23 20:32

回答 2 已采纳你已经爬到图片连接了，这个看到的管道文件的代码怎样写，要对图片链接发送请求访问，然后保存才行
Scrapy框架时爬取网页时报错 python 有问必答
2021-05-26 16:56

回答 2 已采纳你的数据清洗方法用错了，参考一下：https://blog.csdn.net/qq_43004728/article/details/84586628，如有帮助，望采纳
我想用一个外部循环来实现反复调用scrapy来爬取不同的网页内容，但是现在就出现这种情况： python
2021-08-29 20:29

回答 1 已采纳 scrapy的python代码不是可运行脚本。scrapy的python代码是需要借助scrapy的命令运行的。如果要多次运行可以考虑使用python执行shell命令，调用scrapy的命令执行。
Python爬虫：用Scrapy框架爬取漫画
2024-04-21 14:31

2401_83817148的博客一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。**[外链图片转存中…(img-2yW8lotM-1713681057647)][外链图片转存中…(img-v1...
scrapy-爬取京东笔记本电脑信息问题 chrome python selenium 开发语言
2020-09-01 19:12

回答 2 已采纳 ``` browser.quit() return HtmlResponse(url=request.url, body=browser.page_source, re
爬虫scrapy框架爬不出来，但是request可以出来 http python 爬虫
2022-05-06 00:26

回答 2 已采纳你应该继承 scrapy.SpiderCrawlSpider 不要自定义 parse 函数。
关于Scrapy 框架运行不出结果的问题，好像没有报错 python 正则表达式
2020-05-09 18:12

回答 3 已采纳如图：如果你完整的看完scrapy的日志（第一张图），根本原因：你设置了robotstxt服从为真，直接原因：目标网站的robot限制了你的访问
Python爬虫：用Scrapy框架爬取漫画(1)
2024-04-21 14:30

2401_83817122的博客一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。**[外链图片转存中…(img-h6xkY441-1713681021860)][外链图片转存中…(img-D1...
scrapy框架+formdata+ajax爬取及翻页问题 python 数据挖掘测试用例
2020-03-25 14:18

回答 1 已采纳 def parse(self, response): result = eval(response.body.decode('utf-8')) 兄弟，你打印一下resu
爬虫实战：使用Scrapy框架爬取当当网商品信息。（信息存入本地数据库）
2019-10-09 20:37

山山而川yu的博客（3）一般来说，优先选择XPath，但是XPath解决不了的问题用正则表达式解决。 2.常用的XPath表达式： / 逐层提取。 //标签名提取所有名为的标签。 //标签名[@属性=属性值] 提取属性为的标签。（起限制作用） @...
Python爬虫：用Scrapy框架爬取漫画（附源码）
2020-05-21 10:56

wulishinian的博客 scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架。关于框架使用的更多详情可浏览官方文档，本篇文章展示的是爬取漫画图片的大体实现过程。 Scrapy环境配置首先是 scrapy 的安装，博主用的是Mac系统...
没有解决我的问题, 去提问

悬赏问题

¥15 C++ yoloV5改写遇到的问题
¥20 win11修改中文用户名路径
¥15 win2012磁盘空间不足,c盘正常，d盘无法写入
¥15 用土力学知识进行土坡稳定性分析与挡土墙设计
¥70 PlayWright在Java上连接CDP关联本地Chrome启动失败,貌似是Windows端口转发问题
¥15 帮我写一个c++工程
¥30 Eclipse官网打不开，官网首页进不去，显示无法访问此页面，求解决方法
¥15 关于smbclient 库的使用
¥15 微信小程序协议怎么写
¥15 c语言怎么用printf（“\b \b”）与getch（）实现黑框里写入与删除？

求助:关于scrapy框架爬取不到网页源码的文本内容，scrapy的没有优先请求start_url？

1条回答 默认 最新

悬赏问题

1条回答默认最新