scrapy添加了环境变量为什么还是显示非外部内部指令？

系统设置系统变量里path添加过环境变量了，用户变量path也添加了都没有用

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

CSDN-Ada助手 CSDN-AI 官方账号 2023-05-09 08:53

关注

不知道你这个问题是否已经解决, 如果还没有解决的话:

这篇博客: scrapy_爬取蘑菇街所有市场商品下的服饰---把握逛街得到机会-保护好钱包中的 目标:抓取蘑菇街主页目录下的所有主题市场商品 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:

按主题市场分类
每一个市场推荐标题分类
- 商品图片
- 商品链接,
- 商品价格,
- 商品标题
写入excel
设置好excel数据表,分析数据

代码如下（scrapy）：

# -*- coding: utf-8 -*-
import time
from pprint import pprint
import re
from copy import deepcopy
import collections
import json
import scrapy


class MushroomSpider(scrapy.Spider):
    name = 'mushroom'
    allowed_domains = ['www.mogu.com', 'list.mogu.com']
    start_urls = ['https://www.mogu.com/']
https://gitee.com/hanzhou521/pachongxiangmu
    def parse(self, response):
        # 拿到每一个主题市场
        theme_bazaar = response.xpath('//div[@class="cate-item-wrap"]/a/h3/text()').extract()
        # 主题url
        theme_bazaar_url = response.xpath('//div[@class="cate-item-wrap"]/a/@href').extract()[1:]
        for i in theme_bazaar:
            item = collections.OrderedDict()
            # 主题市场
            item['theme_bazaar'] = i
            # 主题市场URL
            item['theme_bazaar_url'] = theme_bazaar_url[theme_bazaar.index(i)]
            # 市场详情URL,返回是一个json数据
            bazaar = item['theme_bazaar_url'].split("/")[4]
            bazaar_url = "https://list.mogu.com/sync/menu?&action={}"
            # 抓包获取的市场数据详情url
            item["bazaar_details_url"] = bazaar_url.format(bazaar)
            yield scrapy.Request(
                item['bazaar_details_url'],
                callback=self.bazaar_details,
                meta={"item": deepcopy(item)},
            )

    def bazaar_details(self, response):
        """市场详情"""
        # 等待拼接的详情商品URL
        jios_url = "https://list.mogu.com/search?cKey=15&page=1&fcid={}&action={}"
        # 分割当前URL提取
        bazaar = response.url.split("/")[4]
        item = response.meta["item"]
        response = json.loads(response.text)
        # pprint(response)
        for i in response['data']['cateTree']:
            # 主推荐标题
            item['recommend'] = response['data']['cateTree']["%s" % i]["p"]['title']
            for a in range(len(response['data']['cateTree']["%s" % i]["c"])):
                # 小分类标题
                item['classify_title'] = response['data']['cateTree']["%s" % i]["c"][a]['title']
                # 小分类URL
                item['classify_url'] = "https://list.mogu.com" + response['data']['cateTree']["%s" % i]["c"][a]['link']
                # 小分类 id
                item['classify_fcid'] = response['data']['cateTree']["%s" % i]["c"][a]['fcid']
                # 设置索引后面一一对应
                item["index"] = 1
                # 拼接完整URL
                details_url = jios_url.format(item['classify_fcid'], bazaar)
                yield scrapy.Request(
                    details_url,
                    # url="https://list.mogu.com/book/accessories/20004357?mt=10.854.r29917",
                    # url="https://list.mogu.com/search?cKey=15&page=1&fcid=20004357&action=accessories",
                    callback=self.classify_details,
                    meta={"item": deepcopy(item)},
                    dont_filter=True
                )

    def classify_details(self, response):
        """
        处理商品详情,价格,图片
        规律URL:https://list.mogu.com/search?cKey=15&page=1&fcid=50243&action=clothing
        """
        item = response.meta["item"]
        response_ = json.loads(response.text)
        # pprint(response['result']['wall']['docs'][1]['img'])
        # pprint(response_)
        # 正则表达式匹配标题字段
        title = re.match(r".*title", str(response_))
        if title != None:
            for i in range(len(response_['result']['wall']['docs'])):
                # 商品标题
                item['commodity_title'] = (response_['result']['wall']['docs'][i]['title'])
                # 商品图片URL
                item['commodity_img'] = (response_['result']['wall']['docs'][i]['img'])
                # 商品URL
                item['commodity_link'] = (response_['result']['wall']['docs'][i]['link'])
                # 商品原价
                item['commodity_orgPrice'] = (response_['result']['wall']['docs'][i]['orgPrice'])
                # 商品现价
                item['commodity_price'] = (response_['result']['wall']['docs'][i]['price'])

            # 判断下一页
            next_url = response.url
            item["index"] += 1
            if item["index"] <= 100:
                nul = re.sub(r"&page=(\d+)", "&page=%s" % str(item["index"]), next_url)
                yield scrapy.Request(
                    url=nul,
                    callback=self.classify_details,
                    meta={"item": deepcopy(item)},
                )
            else:
                item["index"] = 1
            yield item
        else:
            # print("%s没有需要数据" % response.url)
            pass

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^

报告相同问题？

关注问题

已经在cmd安装了scrapy，为什么import scrapy还是报错? python
2022-11-09 16:33

回答 2 已采纳在pycharm终端在安装一次就好了：
scrapy 找不到txt文件是为什么？ python
2021-12-14 09:34

回答 1 已采纳 with open(r'ccgpwin_2021\publishTime','r') as f: preservationTime = f.readline() 有帮助请采纳
Scrapy的下载中间件返回响应对象时，为什么不会执行 del 操作？ python selenium 有问必答
2021-04-22 17:43

回答 4 已采纳已经解决，创建中间件时请使用 `spider_closed`方法并连接到信号： --skip-- @classmethod def from_crawler(cls, crawler):
为什么金融分析需要应用python语言_python基础之从认识python到python的使用
2020-12-01 10:50

weixin_39894932的博客 python的历史：python的创始人是吉多·范罗苏姆(Guido van Rossum)，人称“龟叔”，1989年圣诞节期间，Guido开始写Python语言的编译器。他希望这个叫做Python的语言能符合他的理想：创造一种C和shell之间，功能全面...
请问为什么，我无法创建scrapy爬虫项目 python 爬虫
2022-02-07 19:41

回答 1 已采纳库安装失败了
爬虫scrapy框架为什么items一直报错 python 有问必答
2021-12-23 22:10

回答 1 已采纳你这个文件是house.py，然后又从这个house引入，改一下文件名
为什么我的scrapy爬不到数据了 python
2020-09-05 13:48

回答 1 已采纳 small_link = 'http:'+li.xpath('./@href').extract_first() 这里错了 response.urljoin(li.xpath('./@href')
脑语言v0.5.8 2500令【单字编程】
2022-07-11 06:55

脑语言的博客这是脑语言v0.5.8版的2500个单字（也称为“令”与“一令”），通过【单字编程】（并不仅是中文编程，而是混合英文关键字，但以单字为主的命名）也许是英文不太好时又希望能写代码的其中一种方式。我在做脑语言...
scrapy中请求携带json与request有什么区别？【赏】 python
2020-12-15 11:12

回答 4 已采纳兄弟，半个小时的辛苦 class CeshiSpider(scrapy.Spider): name = 'ceshi' api_headers = { 'Host'
不是说scrapy可以自动处理cookie吗？为什么我用scrapy发送request请求为什么不会自动发送cookie信息？ django flask python tornado virtualenv
2019-06-09 21:28

回答 2 已采纳 ![图片说明](https://img-ask.csdn.net/upload/201906/11/1560224325_844052.png)
关于#pythonscrapy#的问题，如何解决？ python 开发语言爬虫
2023-04-02 16:26

回答 2 已采纳好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com
【代码】Python基础和编程规范
2021-04-29 00:25

山顶夕景的博客 1、copy 和 deepcopy 的区别是什么？ python中的对象之间的赋值是按引用传送的。（1）copy()浅拷贝，只拷贝父对象，不会拷贝对象的内部的子对象。（2）deepcopy()深拷贝，拷贝父对象及其子对象。 #!/usr/bin/...
为什么可以成功运行scrapy,但是最终却无法在对应文件夹生成csv文件 pycharm python
2022-10-09 12:45

回答 4 已采纳因为你使用了open 没有open.close()
python~基础篇
2024-05-28 16:14

旅程@.的博客本文介绍了Python的环境安装、版本选择以及常用的文本编辑器，重点介绍了Anaconda和VS Code的安装与配置，帮助初学者更好地准备Python编程环境。
腾讯架构师教你如何100天系统地自学 Python？
2019-12-23 11:35

ITxiaodaren的博客为大家规划了一条从“从新手到大师”的百天之路！我觉得这个模式你可以参考一下。现在已经有5w+星了！给初学者的几个建议： Make English as your working language. Practice makes perfect. All experience ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月8日

scrapy添加了环境变量为什么还是显示非外部内部指令？

1条回答 默认 最新

问题事件

1条回答默认最新