为什么销量和库存爬取不上信息？求解，急！

为啥销量和库存爬取不上信息？


import time
import random
import requests
from lxml import etree
import csv
from concurrent.futures import ThreadPoolExecutor

def header_x():
    user_agents = [
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36',
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:3.0) Gecko/20100101 Firefox/34.0',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.5.2',
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
    ]
    headers = {"User-Agent": random.choice(user_agents)}
    return headers

def fetch_books(session, category_id, page):
    books = []
    base_url = "https://www.bookuu.com/"
    url = f"https://www.bookuu.com/search.php?cid={category_id}&page={page}"
    headers = header_x()
    response = session.get(url, headers=headers)  # 将 timeout 参数添加到 requests.get()
    if response.status_code != 200:
        print(f"Failed to fetch page {page} for category {category_id}, status code: {response.status_code}")
        return books

    html = etree.HTML(response.text)
    lis = html.xpath("//div[contains(@class, 'wd-640')]")  # 提取包含书籍信息的 HTML 元素

    for li in lis:
        try:
            # 提取书名
            name = li.xpath(".//a/text()")[0].strip()
            # 提取作者
            author_div = li.xpath(".//div[contains(@class, 'wd-30p')]/span[2]/text()")
            author = author_div[0].strip() if author_div else "未知"

            # 提取价格
            price = li.xpath(".//div[@class='lh-30']/span/text()")[0].strip()

            # 提取出版社
            publisher_info = li.xpath(".//div[contains(@class , 'wd-30p')]/span[contains(@style,'color: #212121;')]/text()")
            publisher = publisher_info[0].strip() if publisher_info else "未知"

            # 提取出版日期
            pub_date_info = li.xpath(".//div[contains(@class , 'wd-30p')]/span[contains(@style,'color: #212121;')]/text()")
            pub_date = pub_date_info[0].strip() if pub_date_info else "未知"

            son_path = li.xpath("./a/@href")[0]  # 提取子链接
            son_url = base_url + son_path  # 构造完整的子页面 URL
            resp_son = session.get(son_url, headers=header_x(), timeout=10)  # 请求子页面
            html_son = etree.HTML(resp_son.text)  # 解析子页面 HTML

            # 提取销量
            sales = li.xpath(".//span[@class='cl-3']/text()")
            sales = sales[0].strip() if sales else "0"

            # 提取库存
            stock_info = html_son.xpath(".//span[@id='www_goods_stores']/text()")
            stock = stock_info[0].split("库存：")[1].strip() if stock_info else "无"

            books.append([name, author, price, publisher, pub_date, sales, stock])  # 将书籍信息添加到列表
        except (IndexError, Exception) as e:
            print(f"提取书籍信息失败: {e}")
            continue

    return books  # 返回当前页的书籍信息

def save_to_csv(books, filename):
    with open(filename, mode='w', encoding='utf-8', newline='') as file:
        writer = csv.writer(file)
        writer.writerow(['书名', '作者', '价格', '出版社', '出版日期', '销量', '库存'])
        writer.writerows(books)

def main():
    category_ids = ['1018', ]  # 示例分类 ID
    pages = 5  # 每个分类爬取的页数

    session = requests.Session()
    session.cookies.set("cookie", "parent_qimo_sid_92464560-3f16-11e9-8a25-8d8585556f17=842fa102-a4ef-4247-b504-7856a955c2d4; accessId=92464560-3f16-11e9-8a25-8d8585556f17; pv_id=ce979e0a977dca375ff535c9c9e9176c; _uab_collina=174098147261023766843709; wwwsid=d32f327bda1b54a31c8b6d0feb1bb4fd; tfstk=gAVoQ6AzN8kSJWr92ol5B8tvGsWxNUGIYkdKvXnF3moX23d88vq30u9JeyS7xWm400E8eye08uaUxv_SvDo3vyyRk1CTPzGITXjO61FcLspTx4kr4r7E5VTPkYWIMVaZTGIOMdncuOlU2-1DQs4qc2ArY0rEgjun0BuUY0k20V0tTDrUYxRq540eaLuygKoj8XoUYX70ubKCU0NUgSS49ps5pJq_i4DobrX6wQOszhnUzqOeT00oEZ4rmBRUi-p4YToPCEnIw0arrk16Nbk3L7h4ai5E_RZ0tAlGpaMz--qIwS7eUcy82vFSn3JrSbmoQ7kAsZljL-Vmw7SBCrUm4AcYHts-pbquCcMPhiZ3o0EUZx-lDDeTk7k0bid0Av2UwjPP01jyBKJNnmdIuwF2dpMrlqm9V2RfrJVFnm7cod7IUqgSXZbDdpMrlqmOoZvNOYujPcC..; PHPSESSID=4ingct6o5llmvvsbn9ssakcl83; href=https%3A%2F%2Fwww.bookuu.com%2Findex.php; qimo_seosource_0=%E7%AB%99%E5%86%85; qimo_seokeywords_0=; qimo_seosource_92464560-3f16-11e9-8a25-8d8585556f17=%E7%AB%99%E5%86%85; qimo_seokeywords_92464560-3f16-11e9-8a25-8d8585556f17=; qimo_xstKeywords_92464560-3f16-11e9-8a25-8d8585556f17=; pageViewNum=238")  # 替换为实际的 Cookie

    all_books = []

    # 使用多线程爬取每个分类的每一页
    with ThreadPoolExecutor(max_workers=5) as executor:
        futures = []
        for cid in category_ids:
            for page in range(1, pages + 1):
                futures.append(executor.submit(fetch_books, session, cid, page))

        for future in futures:
            all_books.extend(future.result())

    save_to_csv(all_books, "books.csv")

if __name__ == "__main__":
    main()


    # '101802', '1020', '1021', '1022', '1023', '103713', '103714', '103715', '103716', '103701',
    # '103702', '103703', '103704', '103705', '103706', '103707', '103708', '103708', '103711', '103701',
    # '1038', '1039', '1040', '1042', '1043', '1044', '1045', '1024', '1025', '1026', '1041',
    # '1026', '1027', '1028', '1029', '1030', '1032', '1033', '1034', '1035', '1017', '1048', '1048',
    # '1049', '1050', '1051', '1052', '1053', '1054', '1055', '1056', '1057', '1058', '1011',

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
宝码香车优质创作者: JavaScript技术领域 2025-03-12 09:23
关注
让【宝码香车】来帮你解答，本回答参考DeepSeek编写，并整理提供，如果还有疑问可以点击头像关注私信或评论。

如果答案让您满意，请采纳、关注，非常感谢！

从你提供的代码和问题描述来看，销量和库存信息无法爬取的原因可能有以下几种：

1. XPath 表达式错误

你在代码中使用了 li.xpath(".//span[@class='cl-3']/text()") 来提取销量信息，但根据你提供的图片（虽然无法直接查看图片），这个 XPath 表达式可能不正确。你需要检查页面的 HTML 结构，确保 XPath 表达式能够正确匹配到销量信息。
同样，库存信息的 XPath 表达式 html_son.xpath(".//span[@id='www_goods_stores']/text()") 也可能有问题。你需要确认页面中库存信息的具体位置和标签。

2. 页面结构变化

网站可能会动态加载某些内容（如销量和库存信息），这些内容可能通过 JavaScript 动态生成，而不是直接包含在初始的 HTML 响应中。这种情况下，使用 requests 库无法获取到这些动态加载的内容。
你可以使用浏览器开发者工具（如 Chrome 的 DevTools）查看页面加载的网络请求，看看是否有额外的 AJAX 请求来获取销量和库存信息。如果有，你需要模拟这些请求来获取数据。

3. 反爬虫机制

网站可能使用了反爬虫机制，阻止你获取某些敏感信息（如销量和库存）。你可以尝试增加请求头中的 User-Agent、Referer 等信息，或者使用代理 IP 来规避反爬虫机制。

4. 子页面请求失败

你在代码中请求了子页面来获取库存信息，但子页面请求可能失败。你可以检查 resp_son.status_code 来确认子页面请求是否成功。如果请求失败，可能是由于网络问题、反爬虫机制或 URL 构造错误。

5. 数据格式问题

销量和库存信息可能以不同的格式存在（如 JSON、XML 等），而不是直接嵌入在 HTML 中。你需要检查页面源代码，看看是否有隐藏的 JSON 数据或其他格式的数据。

解决方案建议：

检查 XPath 表达式：

使用浏览器开发者工具检查页面结构，确保 XPath 表达式正确匹配到销量和库存信息。

处理动态加载内容：

如果销量和库存信息是通过 JavaScript 动态加载的，你可以使用 Selenium 或 Pyppeteer 等工具来模拟浏览器行为，获取动态加载的内容。

模拟 AJAX 请求：

如果销量和库存信息是通过 AJAX 请求获取的，你可以使用 requests 库模拟这些请求，获取数据。

增加请求头信息：

增加更多的请求头信息，如 Referer、Accept、Accept-Language 等，以规避反爬虫机制。

调试子页面请求：

检查子页面请求的 URL 和响应状态码，确保子页面请求成功。

示例代码改进：

def fetch_books(session, category_id, page): books = [] base_url = "https://www.bookuu.com/" url = f"https://www.bookuu.com/search.php?cid={category_id}&page={page}" headers = header_x() response = session.get(url, headers=headers) if response.status_code != 200: print(f"Failed to fetch page {page} for category {category_id}, status code: {response.status_code}") return books html = etree.HTML(response.text) lis = html.xpath("//div[contains(@class, 'wd-640')]") for li in lis: try: # 提取书名 name = li.xpath(".//a/text()")[0].strip() # 提取作者 author_div = li.xpath(".//div[contains(@class, 'wd-30p')]/span[2]/text()") author = author_div[0].strip() if author_div else "未知" # 提取价格 price = li.xpath(".//div[@class='lh-30']/span/text()")[0].strip() # 提取出版社 publisher_info = li.xpath(".//div[contains(@class , 'wd-30p')]/span[contains(@style,'color: #212121;')]/text()") publisher = publisher_info[0].strip() if publisher_info else "未知" # 提取出版日期 pub_date_info = li.xpath(".//div[contains(@class , 'wd-30p')]/span[contains(@style,'color: #212121;')]/text()") pub_date = pub_date_info[0].strip() if pub_date_info else "未知" son_path = li.xpath("./a/@href")[0] son_url = base_url + son_path resp_son = session.get(son_url, headers=header_x(), timeout=10) if resp_son.status_code != 200: print(f"Failed to fetch subpage: {son_url}, status code: {resp_son.status_code}") continue html_son = etree.HTML(resp_son.text) # 提取销量 sales = li.xpath(".//span[@class='cl-3']/text()") sales = sales[0].strip() if sales else "0" # 提取库存 stock_info = html_son.xpath(".//span[@id='www_goods_stores']/text()") stock = stock_info[0].split("库存：")[1].strip() if stock_info else "无" books.append([name, author, price, publisher, pub_date, sales, stock]) except (IndexError, Exception) as e: print(f"提取书籍信息失败: {e}") continue return books

总结：

你需要仔细检查页面结构和 XPath 表达式，确保它们能够正确匹配到销量和库存信息。如果信息是通过 JavaScript 动态加载的，你可能需要使用 Selenium 或 Pyppeteer 来获取这些数据。同时，确保你的请求头信息和 Cookie 设置正确，以规避反爬虫机制。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于Python爬虫的淘宝商品销售量分析和可视化系统实现
2024-10-08 01:12

光子AI的博客基于Python爬虫的淘宝商品销售量分析和可视化系统实现作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 关键词： Python爬虫，淘宝数据，销售量分析，可视化，数据分析，ECharts，
新能源汽车销量影响因素的分析和预测
2024-08-04 19:16

老李接毕设的博客从新能源汽车销量数据大数据分析平台需求分析开始，到整体框架的设计以及各个详细功能的设计具体实现，最后基于大数据平台的新能源汽车销量信息分析系统的基础架构和详细功能已经大致开发完毕，并将其部署在本地...
资料分享：送你一本《数据结构与算法：Python语言描述》电子书！
2019-04-02 10:54

青少年编程备考的博客下图为 TIOBE 3月编程语言排行榜。从榜单来看，曾经铁打的 Java、C、C++ 局势，早已在数月前被 Python 的闯入而打破。究其根由，并非是 C++ 的应用领域正在逐渐缩减，而是随着人工智能、机器学习的崛起，适用于该...
收藏！小白也能上手的AI大模型落地3件套，程序员零门槛掘金
2026-03-11 10:35

大模型研究院的博客为什么要做 RAG 什么是模型什么是模型训练求解器 & 损失函数简介小实验2：手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调 Transformer结构简介轻量化微调实验数据集的构建 … 第四阶段...
Python 数据分析必学的 10 个库，你掌握了几个？
2025-07-22 14:26

JAVA编程爱好者520的博客无论是刚入门的新手还是有一定经验的从业者，都能从文中获取实用信息，明晰各库的学习价值，进而判断自己对这些关键工具的掌握程度，为提升数据分析能力提供方向。其功能强大，支持数据的读取（如从 CSV、Excel、...
数据分析入门系列教程-决策树原理
2020-11-09 08:18

IT农民工1的博客公众号后台回复“图书“，了解更多号主新书内容作者：周萝卜来源：萝卜大杂烩今天我们一起来学习决策树，那么什么是决策树呢，其实在生活中，我们无时无刻不在使用它。比如现在有朋友给海伦介绍约...
【信息科学与工程学】【市场体系】第十八篇销售策略模型和销售审计监督01
2026-03-08 12:13

flyair_China的博客例如：初步接洽(10%)，需求分析(25%)，方案评估(50%)，商业谈判(75%)，决策审批(90%)。...定义销售额（或毛利等指标）的阶梯区间 Ik=[Lk,Uk)，其中 Lk为下限，Uk为上限，且 L1=0， UK=∞。
数据处理中的标准化、归一化，究竟是什么？
2020-12-27 11:58

IT农民工1的博客公众号后台回复“图书“，了解更多号主新书内容作者：小一来源：小一的学习笔记今天说一个比较重要的内容，无论是在算法建模还是在数据分析都比较常见：数据归一化和标准化。开始之前，请你先把网上看...
【信息科学与工程学】【管理科学】【市场体系】第三十四篇企业内部私下运作模型表——监督监管和审计必学必备01
2026-03-11 11:05

flyair_China的博客编号Process-A1-0001模型/算法名称关键人锁定与关系破冰模型模型/算法配方在面向企业客户（To-B）的销售或合作中，将目标组织抽象为一个由多个决策节点（角色）构成的网络。通过情报收集（公开信息、内部人脉、...
【信息科学与工程学】【产品体系】第二十四篇产品线工程（PLE）和系统产品线工程的核心模型01
2025-07-14 08:37

flyair_China的博客标记上下文：为链接 l和/或相关工件标记可变性上下文 context(l)（一个特征表达式 ϕ）。 4. 查询与推理：给定一个具体配置 C或一个特征表达式 ϕq，执行追踪查询：找出所有满足 C∈context(x)（或 context(x)∩...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月4日

码龄粉丝数原力等级 --

为什么销量和库存爬取不上信息？求解，急！

4条回答默认最新

码龄粉丝数原力等级 --

1. XPath 表达式错误

2. 页面结构变化

3. 反爬虫机制

4. 子页面请求失败

5. 数据格式问题

解决方案建议：

示例代码改进：

总结：

问题事件

码龄粉丝数原力等级 --

为什么销量和库存爬取不上信息？求解，急！

4条回答 默认 最新

1. XPath 表达式错误

2. 页面结构变化

3. 反爬虫机制

4. 子页面请求失败

5. 数据格式问题

解决方案建议：

示例代码改进：

总结：

问题事件

4条回答默认最新