爬虫报错，求解，急！

求解，完全不明白为啥会提取信息失败。


import time
import random
import requests
from lxml import etree
import csv

def header_x():
    user_agents = [
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36',
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2',
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
    ]
    headers = {"User-Agent": random.choice(user_agents)}
    return headers

def fetch_books(session, category_ids, pages=5):
    books = []
    for cid in category_ids:
        for page in range(1, pages + 1):
            url = f"https://www.bookuu.com/search.php?cid={cid}&page={page}"
            headers = header_x()
            response = session.get(url, headers=headers)
            if response.status_code != 200:
                print(f"Failed to fetch page {page} for category {cid}, status code: {response.status_code}")
                continue

            html = etree.HTML(response.text)
            lis = html.xpath("//div[contains(@class, 'wd-640')]") # 更宽松的XPath

            for li in lis:
                try:
                    # 提取基础信息
                    name = li.xpath(".//a/@title")[0].strip()
                    author_div = li.xpath(".//div[contains(@class, 'wd-30p')]/span/text()")
                    author = author_div[0].strip() if author_div else "未知"

                    # 提取价格
                    price = li.xpath(".//div[@class='lh-30']/span/text()")[0].strip()

                    # 出版社和出版时间（优化后的XPath）
                    publisher_info = li.xpath(".//div[contains(text(), '出版社')]/following-sibling::div/text()")
                    publisher = publisher_info[0].strip() if publisher_info else "未知"
                    pub_date_info = li.xpath(".//div[contains(text(), '出版时间')]/following-sibling::div/text()")
                    pub_date = pub_date_info[0].strip() if pub_date_info else "未知"

                    # 处理子页面
                    son_path = li.xpath(".//a/@href")[0]
                    son_url = base_url + son_path
                    resp_son = session.get(son_url, headers=header_x(), timeout=10)
                    html_son = etree.HTML(resp_son.text)

                    # 销量和库存
                    sales = html_son.xpath("//td[contains(text(), '销量')]/following-sibling::td/text()")
                    stock = html_son.xpath("//td[contains(text(), '库存')]/following-sibling::td/text()")
                    sales = sales[0].strip() if sales else "0"
                    stock = stock[0].strip() if stock else "无"

                    books.append([name, author, price, publisher, pub_date, sales, stock])
                except (IndexError, Exception) as e:
                    print(f"提取书籍信息失败: {e}")
                    continue

            time.sleep(random.randint(1, 3))
    return books

def save_to_csv(books, filename):
    with open(filename, mode='w', encoding='utf-8', newline='') as file:
        writer = csv.writer(file)
        writer.writerow(['书名', '作者', '价格', '出版社', '出版日期', '销量', '库存'])
        writer.writerows(books)

if __name__ == "__main__":
    # 定义分类 ID 列表
    category_ids = ['1018', '1019',  '101802', '1020', '1021',  '1022',  '1023',  '103713',  '103714', '103715', '103716', '103701',
                    '103702', '103703', '103704', '103705', '103706', '103707', '103708', '103708', '103711', '103701',
                    '1038', '1039', '1040', '1042', '1043', '1044', '1045', '1024', '1025', '1026', '1041',
                    '1026', '1027', '1028', '1029', '1030', '1032', '1033', '1034', '1035', '1017', '1048', '1048',
                    '1049', '1050', '1051', '1052', '1053', '1054', '1055', '1056', '1057', '1058', '1011',
                    ]  # 示例分类 ID
    pages = 50  # 每个分类爬取的页数

    # 创建会话
    session = requests.Session()

    # 将登录后的 Cookie 添加到会话中
    session.cookies.set("cookie", "your_cookie_value_here")

    # 爬取书籍信息
    books = fetch_books(session, category_ids, pages)

    # 保存到 CSV 文件
    save_to_csv(books, "books.csv")

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
George、卟壞 2025-03-03 22:02
关注
如果有代码代码变成汉字，就刷新一下或重新进入。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

人工智能开发语言 python,python人工智能编程教程
2022-10-10 15:18

快乐的小肥熊的博客 Python作为人工智能首选编程语言，随着人工智能时代的到来，Python开发效率非常高，Python有非常强大的第三方库，基本上你想通过计算机实现任何功能，Python官方库里都有相应的模块进行支持，直接下载调用后，在基础...
爬虫教程（ 6 ） --- 爬虫进阶、扩展
2022-07-11 07:35

「已注销」的博客 1. 先看一个最简单的爬虫。 import requests url = "http://www.cricode.com" r = requests.get(url) print(r.text) 2. 一个正常的爬虫程序上面那个最简单的爬虫，是一个不完整的残疾的爬虫。因为爬虫程序通常...
Julia：面向超级计算的高性能高级编程语言
2025-11-29 02:49

含老司开挖掘机的博客回到开头的问题：有没有一种语言，既简单又快？答案是肯定的——而且它就在你面前。Julia 正在重塑高性能计算的边界：在 MIT，它被用来模拟黑洞合并；在 Wall Street，它驱动高频交易引擎；在生物医药领域，它加速...
高效编程——多进程
2025-05-12 22:39

生而自由爱而无畏的博客如果你这么写的话就会无限递归创建子进程报错。所以必须把创建子进程的部分用那个 if 判断保护起来，import 的时候 __name__ 不是 __main__ ，就不会递归运行了。参数说明 target 指定进程执行的任务 args 给进程...
AI赋能Python零代码编程知识技能体系构架
2025-03-09 18:33

让AI为我们工作的博客项目隔离与依赖控制实战常见环境报错排查指南（PATH冲突/包版本锁定） AI编程环境配置终极方案 VSCode深度配置：Python扩展+Git集成+主题优化主流AI编程插件横评（阿里COS/百度Comate/GPT-Copilot）插件组合策略...
文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）
2022-07-29 01:10

Yolo阿的博客 1 爬虫 1.1 爬虫原理这部分内容可以跳过，掌握与否对后面内容的阅读影响并不大，但有兴趣的话可以看看呐~ 实现一个爬虫，一般需要经过两个步骤：处理请求和解析源码/数据。处理请求方面，我们可以使用...
请不要吸开源的血！！！
2022-04-02 19:19

菜鸟学Python的博客本书以理论结合编程开发为原则，使用Python作为开发语言，讲解*化算法的原理和应用，详细介绍了Python基础、Gurobi 优化器、线性规划、整数规划、多目标优化、动态规划、图与网络分析、智能优化算法。对于算法部分...
使用Java调用Apache commons-text求解字符串相似性实战
2024-08-21 03:29

包打听王撕图的博客博客以Java编程为例，讲解了在Java中求解两个字符串的几种方法。通过求解编辑距离、Q-gram Matching、还有余弦相似性计算，通过对比不同的方法，调用Apache 的Common-text中基于余弦的字符相似性得到了比较比错的...
[Python]一、Python基础编程（1）
2024-09-16 17:49

墨尔本、晴的博客基础语法 2.1 注释注释的作用：用自然语言对代码进行解释说明，方便后期维护。注释的分类单行注释： # 注释内容多行注释："""注释内容""" 或 '''注释内容''' 解释器不执行注释的内容 2.2 变量定义：程序中数据...
Python软件编程等级考试四级——20220618
2022-07-29 22:13

青岛少儿编程-王老师的博客 Python软件编程等级考试四级——20220618
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 3月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月3日

爬虫报错，求解，急！

4条回答 默认 最新

问题事件

4条回答默认最新