关于#pythonscrapy#的问题，如何解决？

请问大家我在爬取一个叫Steinmart.com的网站，大家能帮我加一下注释吗？（越详细越好）以下是我的代码


import copy
import logging
import time
import json
import openpyxl
from scrapy import cmdline
from steinmart_com.items import SteinmartComItem
from scrapy.http.response.html import HtmlResponse
from steinmart_com.settings import ONLINE
import scrapy
import re
logging.basicConfig(filename=r'G:\spider_demo\spider\demo\steinmart_com\Steinmart.log', level=logging.INFO,
                    format='%(asctime)s %(message)s', filemode='w')
class Steinmart(scrapy.Spider):
    name='Steinmart'
    allowed_domains=['steinmart.com']
    start_urls=['https://steinmart.com/']
    index_url='https://steinmart.com/'
    def start_requests(self):
        if ONLINE:
            wb=openpyxl.load_workbook('/home/yang/steinmart_com/steinmart_com/steinmart_com.xlsx')
        else:
            wb = openpyxl.load_workbook(r'G:\spider_demo\spider_demo\steinmart_com\steinmart_com\steinmart_com.xlsx')
        ws=wb.active
        for r in range(2,ws.max_row+1):
            url=ws.cell(r,1).value
            if not url:
                continue
            one, two, three, four=ws.cell(r,2).value, ws.cell(r,3).value, ws.cell(r,4).value, ws.cell(r,5).value
            meta = {'url': url, 'category': one if one else'', 'sub_category': two if two else'',
                    'third_category': three if three else '','subdivision_cat':four if four else ''}
            yield scrapy.Request(url, callback=self.parse, dont_filter = True, meta = meta)
            def parse(self, response: HtmlResponse, ** kwangs):
                meta=response.meta
                sale_num=response.xpath('//*[eclass="collection-count"]/textO').get()
                sale_num1=sale_num.strip()
                sale_num2=sale_num1[:-5]
                page_num=int(sale_num2)//20
                if page_num:
                    for i in range(1, int(page_num)+1):
                        new_url=str(response.url)+'?page='+str(i)
                    yield scrapy.Request(new_url, callback=self.parse_list, dont_filter=True, meta=meta)

    def parse_list(self, response: HtmlResponse):
        meta = response.meta
        product_list=response.xpath("//*[@class='col-lg-3 col-md-4 col-Sm-6']")
        for product in product_list:
            if not product.xpath("./a/div/div"):
                continue
        meta['brand_name']=product.xpath("./a/div[2]/div[1]/textO").get()
        meta['url'] = self.index.url+product.xpath("./a/@href").get()
        meta['title']=product.xpath("./a/div[2]/div[1]/textO").get()
        meta['product_small_image'] = product.xpath("./a/div/div/img/@data-src").get()
        yield scrapy.Request(meta['url'], callback=self.parse_detail, dont_filter = True, meta = meta)


    def parse_detail(self, response: HtmlResponse):
        meta = response.meta
        item = SteinmartcomItem()
        item['url'] = meta['url']
        item['title'] = meta['title']
        item['price_now'] = str(response.xpath('//*[@class="container"]/div[2]/div[2]/div[2]/div/textO)').get()).replace('$', '').replace('\t', '').replace('\n', '').strip()
        print(item['title'])
        print(item['price_now'])

展开全部

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
不吃西红柿丶 Python领域优质创作者 2023-04-02 08:44
关注
好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com/fx/13ce6bbd-f36f-4e92-be53-92dd381ed729

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

编辑

预览

报告相同问题？

关注问题

关于#scrapy#的问题，如何解决？ python 爬虫
2023-03-07 10:36

回答 2 已采纳从代码看，你的爬虫似乎只是爬取了起始页面上第一个标题链接的数据。这可能是因为在parse函数中只获取了第一个数据块，而没有对其他数据块进行处理。你可以尝试使用循环迭代数据块，以便对每个数据块进行相同
关于#python#的问题，如何解决？ python 有问必答
2022-01-27 08:09

回答 2 已采纳第一题:A
怎么解决Python中scrapy导入出错的问题？ pycharm python
2021-07-14 14:31

回答 1 已采纳看提示是说没有 crawl 命令，要解决这个问题，需要确保2点： 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件
Python是一种高级、通用、解释型的编程语言
2024-04-16 13:25

"高级"意味着Python在抽象层次上较高，使得开发者能够更专注于问题解决而不是底层细节。"通用"则表明Python可以用于开发各种类型的软件，包括Web应用、科学计算、数据分析、自动化脚本、人工智能等等。 Python的...
关于#AttributeError#的问题，如何解决？(标签-scrapy) pycharm python
2022-09-28 03:34

回答 2 已采纳找到了解决方法pip3 install pyOpenSSL==22.0.0
Python的Scrapy模块；解释一下？ javascript pycharm python
2021-07-23 03:36

回答 3 已采纳这个只是爬虫的Spider编写啥也没做没有入口都运行不了顶多实现下面:import requestsurl = 'https://www.santostang.com/'response = re
scrapy如何手动停止爬虫？ python
2021-05-10 01:54

回答 1 已采纳 Ctrl+C 只是终止主线程,你的其他线程没有守护,所以 Ctrl+C 后它们继续运行。另外scrapy中的 Ctrl+C 是暂停，并不是完全停止，Ctrl+C 是断点续爬的基础。
浅析python实现scrapy定时执行爬虫
2020-09-20 10:11

Python是一种广泛使用的高级编程语言，因其简洁的语法和强大的功能而受到开发者的青睐。Scrapy是一个快速的高层次的网页抓取和网页爬取框架，用于抓取网站并从页面中提取结构化的数据。定时执行爬虫是指在特定时间...
scrapy怎么没打印数据？ python
2021-07-21 04:31

回答 3 已采纳 allowed_domains = ["jobui.com"] 好像是不要WWW 或者这个直接不写 allowed_domains = ["jobui.com"]
scrapy框架问题报错？ python
2020-03-22 05:23

回答 1 已采纳 https://www.cnblogs.com/ArsenalfanInECNU/p/5346751.html
Python视频教程带你轻松入门编程.pdf
2023-06-13 01:26

Python是一种高级编程语言，以其简洁明了的语法和强大的功能而受到广泛的赞誉。"Python视频教程带你轻松入门编程"这个标题表明，这个教程是专为初学者设计的，旨在帮助那些想要快速掌握Python编程基础知识的人。...
Python编程语言能做什么软件？.docx
2022-06-11 17:08

Python编程语言以其强大的功能和易学性，在众多领域都有着广泛的应用。从初学者到专业开发者，Python都是他们的首选工具之一。下面将详细阐述Python在不同领域的应用及其优势。首先，Python在Web开发中的地位不可...
Python爬虫是一种使用Python编程语言来自动化获取网页数据的技术这项技术主要涉及到向目标服务器发送请求，获取HTML页
2024-05-02 06:49

Python爬虫是一种利用Python编程语言实现自动化的网页数据抓取技术。它的工作原理主要包括以下几个步骤：首先向目标服务器发送HTTP请求；接着获取服务器返回的HTML页面内容；然后对HTML进行解析以提取所需的数据。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月2日

悬赏问题

¥15 全志t113i启动qt应用程序提示internal error
¥15 ensp可以看看嘛.
¥80 51单片机C语言代码解决单片机为AT89C52是清翔单片机
¥60 优博讯DT50高通安卓11系统刷完机自动进去fastboot模式
¥15 minist数字识别
¥15 在安装gym库的pygame时遇到问题，不知道如何解决
¥20 uniapp中的webview 使用的是本地的vue页面，在模拟器上显示无法打开
¥15 网上下载的3DMAX模型，不显示贴图怎么办
¥15 关于#stm32#的问题：寻找一块开发版，作为智能化割草机的控制模块和树莓派主板相连，要求：最低可控制 3 个电机（两个驱动电机，1 个割草电机），其次可以与树莓派主板相连电机照片如下：
¥15 潜在扩散模型的Unet特征提取

关于#pythonscrapy#的问题，如何解决？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新