急，求解（python爬虫）


import requests
from lxml import etree
import csv
import time
import random

def header_x():
    """
    随机选择一个User-Agent，以模拟不同的浏览器请求。
    """
    user_agents = [
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36',
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2',
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
    ]
    headers = {"User-Agent": random.choice(user_agents)}
    return headers

# 随机等待5到8秒，以避免频繁请求
time.sleep(random.randint(5, 8))

def fetch_books(category, pages=51):
    """
    从博库网站抓取指定分类的书籍信息。

    :param category: 书籍分类，例如 '编程'
    :param pages: 要抓取的页数，默认为50页
    :return: 包含书籍信息的列表
    """
    books = []
    for i in range(1, pages + 1):
        # 构建请求URL
        url = f'https://www.bookuu.com/search.php?cid={category}&page={i}'
        headers = header_x()
        response = requests.get(url, headers=headers)
        html = etree.HTML(response.text)
        lis = html.xpath("//div[@class='wd-640 fl']")

        for li in lis:
            try:
                # 提取书籍名称
                name = li.xpath("./a/@title")[0]
                # 提取作者信息
                author = li.xpath(".//div[@class='lh-30 fs-12']/div[@class='wd-30p fl to-hd mr-10']/span/text()")[0].strip().split('/')[0]
                # 提取价格
                intro_1 = li.xpath(".//div[@class='lh-30']/span/text()")[0].strip()
                # 提取出版社信息
                publisher = li.xpath(".//div[@class='lh-30 fs-12']/div[@class='wd-30p fl to-hd cl-9 mr-10']/span/text()")[0].strip().split('/')[-3]
                # 提取出版时间
                publish_time = li.xpath(".//div[@class='lh-30 fs-12']/div[@class='wd-30p fl to-hd cl-9']/span/text()")[0].strip().split('/')[-2]
                # 提取书籍详情页URL
                son_url = li.xpath("./a/@href")[0]

                # 请求书籍详情页
                resp_son = requests.get(son_url, headers=headers)
                html_son = etree.HTML(resp_son.text)
                # 提取销量
                score = html_son.xpath("//table[@class='lh-30 mt-10']/tbody/tr/td/text()")[0].strip()
                # 提取库存
                intro = ''.join(html_son.xpath("//table[@class='lh-30 mt-10']/tbody/tr/td[@class='cl-3 clearfix']/span/text()"))

                # 将书籍信息添加到列表中
                books.append([name, author, intro_1, publisher, publish_time, score, intro])
            except IndexError:
                # 如果某个字段提取失败，跳过该书籍
                continue

            # 随机等待3到5秒，以避免频繁请求
            time.sleep(random.randint(3, 5))
    return books

def save_to_csv(books, category):
    """
    将抓取到的书籍信息保存到CSV文件中。

    :param books: 包含书籍信息的列表
    :param category: 书籍分类，用于命名CSV文件
    """
    with open(f'{category}.csv', mode='w', encoding='utf-8', newline='') as file:
        writer = csv.writer(file)
        # 写入CSV文件的表头
        writer.writerow(['书名', '作者', '价格', '出版社', '出版日期', '销量', '库存'])
        # 写入书籍信息
        writer.writerows(books)

if __name__ == "__main__":
    category = '1018'
    books = fetch_books(category)
    save_to_csv(books, category)

求各位大能，帮我看看怎么修改才能爬到数据。运行没报错，但也没爬到相关数据，提取信息那块有问题，不知道怎么改，还有就是“[0].strip().split('/')[0]”这个是什么意思？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

软件技术NINI 2025-03-03 17:01

关注


import requests
from lxml import etree
import csv
import time
import random
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

def header_x():
    user_agents = [
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
        # 更多User-Agent...
    ]
    return {"User-Agent": random.choice(user_agents)}

def requests_retry_session(retries=3, backoff_factor=1):
    session = requests.Session()
    retry = Retry(
        total=retries,
        read=retries,
        connect=retries,
        backoff_factor=backoff_factor,
        status_forcelist=[500, 502, 503, 504],
    )
    adapter = HTTPAdapter(max_retries=retry)
    session.mount('http://', adapter)
    session.mount('https://', adapter)
    return session

def fetch_books(category, pages=51):
    books = []
    session = requests_retry_session()
    base_url = 'https://www.bookuu.com'

    for i in range(1, pages + 1):
        url = f'https://www.bookuu.com/search.php?cid={category}&page={i}'
        try:
            response = session.get(url, headers=header_x(), timeout=10)
            response.raise_for_status()
            html = etree.HTML(response.text)
            lis = html.xpath("//div[contains(@class, 'wd-640')]")  # 更宽松的XPath

            for li in lis:
                try:
                    # 提取基础信息
                    name = li.xpath(".//a/@title")[0].strip()
                    author_div = li.xpath(".//div[contains(@class, 'wd-30p')]/span/text()")
                    author = author_div[0].strip() if author_div else "未知"

                    # 提取价格
                    price = li.xpath(".//div[@class='lh-30']/span/text()")[0].strip()

                    # 出版社和出版时间（优化后的XPath）
                    publisher_info = li.xpath(".//div[contains(text(), '出版社')]/following-sibling::div/text()")
                    publisher = publisher_info[0].strip() if publisher_info else "未知"
                    pub_date_info = li.xpath(".//div[contains(text(), '出版时间')]/following-sibling::div/text()")
                    pub_date = pub_date_info[0].strip() if pub_date_info else "未知"

                    # 处理子页面
                    son_path = li.xpath(".//a/@href")[0]
                    son_url = base_url + son_path
                    resp_son = session.get(son_url, headers=header_x(), timeout=10)
                    html_son = etree.HTML(resp_son.text)

                    # 销量和库存
                    sales = html_son.xpath("//td[contains(text(), '销量')]/following-sibling::td/text()")
                    stock = html_son.xpath("//td[contains(text(), '库存')]/following-sibling::td/text()")
                    sales = sales[0].strip() if sales else "0"
                    stock = stock[0].strip() if stock else "无"

                    books.append([name, author, price, publisher, pub_date, sales, stock])
                except (IndexError, Exception) as e:
                    print(f"提取书籍信息失败: {e}")
                    continue

                time.sleep(random.uniform(1, 3))  # 更自然的等待时间
        except requests.exceptions.RequestException as e:
            print(f"请求失败: {url}, 错误: {e}")
            continue

    return books

def save_to_csv(books, category):
    with open(f'{category}.csv', 'w', encoding='utf-8-sig', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(['书名', '作者', '价格', '出版社', '出版日期', '销量', '库存'])
        writer.writerows(books)

if __name__ == "__main__":
    category = '1018'
    books = fetch_books(category, pages=5)  # 测试时减少页数
    save_to_csv(books, category)

报告相同问题？

关注问题

Python爬虫自学系列（三）
2021-01-21 22:46

看，未来的博客爬虫缓存！！跟我一起学，爬虫路上不孤单！！
python算法实训ppt
2022-02-16 10:09

5. **递归与回溯**：递归的概念、基本性质以及如何在Python中实现，可能还会涉及递归在求解复杂问题（如八皇后问题、汉诺塔）中的应用。同时，回溯法也是解决组合优化问题的一个重要工具。 6. **图论与树**：可能会...
Python库 | problog-2.1.0b1.tar.gz
2022-03-07 07:21

Python库`problog`虽然不直接涉及Web应用的后端开发，但可以作为后端逻辑的一部分，用于处理概率模型和推理，为AI驱动的后端服务提供决策支持。 **Python库** Python库是预编译的代码模块，可以方便地通过Python的...
探索后端领域爬虫的分布式架构
2025-04-21 20:28

AI应用开发实战派的博客在当今数字化时代，互联网上蕴含着海量的数据，这些数据对于企业和研究机构来说...本文的范围主要涵盖后端领域爬虫分布式架构的核心概念、算法原理、数学模型、项目实战、实际应用场景以及相关的工具和资源推荐等方面。
从零构建企业级专利文献数据采集系统：Python爬虫实战指南
2026-02-23 19:01

Python爬虫项目的博客然而，专利数据的采集面临诸多挑战：反爬机制复杂：主要专利局网站（如USPTO、EPO、CNIPA）均部署了先进的反爬虫系统数据异构性强：不同数据源的HTML结构、API接口规范差异显著数据质量要求高：专利文献的法律...
python程序，都是比较简单的程序，每个程序无出错，分享给大家
2022-02-23 10:26

在本压缩包中，我们收集了一系列使用Python编程语言编写的...此外，这些小程序也展示了Python作为开发语言的灵活性和广泛的应用范围，尤其是在后端开发中。无论是初学者还是经验丰富的开发者，都能从这些实践中受益。
Python经典面试题
2020-09-12 21:40

木白^0^端墨的博客一、Python经典面试题 1、用你觉得最Python的方式来实现a、b元素交换 a,b=b,a 2、Python实现—个单例模式单例模式确保某一个类只有一个实例存在当你希望在整个系统中，某个类只能出现一个实例时，就可以使用...
Python 爬虫高级面试真题_0
2025-11-29 16:32

JHC0000abc的博客核心流程包括：预定义信号（如spider_opened/item_scraped）组件通过dispatcher.send()触发信号其他组件通过@connect装饰器注册回调函数信号中心调用匹配的回调函数完成事件处理典型应用场景包括爬虫生命周期...
基于python爬虫的豆瓣电影推荐系统
2024-12-03 22:08

文星毕设的博客它是对于最大频繁项的求解，通常有Apriori和FP-Growth使用较多。（4）基于聚类的推荐算法。基于聚类的算法有K最近邻算法，它可以按照用户或物品划分，对于专门来缓解数据稀疏有非常很好的作用。 2.2 研究背景与...
python后端开发需要学什么-【python后端开发需要学什么?】python3 的教程
2020-11-11 14:08

weixin_39620252的博客学Python，不需要有编程基础！编程零基础，可以学习 Python 吗”，这是很多初学者经常问我的一个问题。，在计算机方面的基础越好，对学习任何一门新的编程语言越有利。但如果你在编程语言的学习上属于零基础，也不用...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 3月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月3日

急，求解（python爬虫）

3条回答 默认 最新

问题事件

3条回答默认最新