关于xpath爬虫遇到的问题

请问各位，用xpath提取评语（比如图片中标黄的：微信读书，推荐回想剧场有声响）怎么提取呀，本来（759548人评价）也不会的后来百度解决了，这第二个问题实在不会，麻烦各位优秀的程序员（媛）解答谢谢，谢谢

结果


"""
豆瓣图书top250数据抓取-lxml+xpath
"""

import requests
from lxml import etree
import time
import random
from  fake_useragent import UserAgent

class DoubanBookSpider:
    def __init__(self):
        self.url='https://www.douban.com/doulist/139873963/?start={}'


    def get_html(self,url):
        """请求函数-获取html"""
        headers={"User-Agent":UserAgent().random}
        html=requests.get(url=url,headers=headers).content.decode('utf-8','ignore')
        # 直接调用解析函数
        self.parse_html(html)

    def parse_html(self, html):
        """解析函数-解析提取数据"""
        parse=etree.HTML(html)
        table_list=parse.xpath('//div[@class="article"]')
        for table in table_list:
            item={}
            # item["name"]=table.xpath('.//div[@class="title"]/a/text()')
            # # print(item["name"])
            # item["comment"]=table.xpath('.//div[@class="abstract"]/text()')
            # # print(item["comment"])
            # item["score"]=table.xpath('.//span[@class="rating_nums"]/text()')
            # # print(item["score"])
            # item["number"]=table.xpath('.//div[@class="rating"]/span/text()')
            # # print(item["number"])
            # item["instructions"] = table.xpath('.//blockquote[@class="comment"]/text()')
            # # print(item["instructions"])
            # print(item)

             # 书的名称
            name_list=table.xpath('.//div[@class="title"]/a/text()')
            item["name"]=name_list[0].strip() if name_list else None
            # 以上相当于x=3 if 5>2 else 8

            # 书的描述
            comment_list=table.xpath('.//div[@class="abstract"]/text()')
            item["comment"] = comment_list[0].strip() if name_list else None

            # 书的评分
            comment_list=table.xpath('.//span[@class="rating_nums"]/text()')
            item["score"] = comment_list[0].strip() if name_list else None

            # 评论人数
            number_list=table.xpath('.//div[@class="rating"]/span[count(@*)=0]/text()')
            item["number"]= number_list[2].strip() if name_list else None

            # 评语
            instructions_list = table.xpath('.//blockquote[@class="comment"]/span/text()')
            item["instructions"]= instructions_list[0].strip() if name_list else None
            print(item)


    def run(self):
        for page in range(1,11):
            start=(page-1)*25
            page_url=self.url.format(start)
            self.get_html(url=page_url)
            # 控制数据抓取的频率
            time.sleep(random.uniform(0,2))

if __name__ == '__main__':
    spider=DoubanBookSpider()
    spider.run()

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

cjh4312 2023-03-13 18:05

关注


titles=html.xpath('//*[@class="title"]/a//text()')
abstracts=html.xpath('//*[@class="abstract"]')
ratings=html.xpath('//*[@class="rating"]')
comments=html.xpath('//*[@class="comment"]')
for n,i in enumerate(titles):
    print(f'{n+1}.{i.strip()}')
    abstarct=abstracts[n].xpath('.//text()')
    for j in abstarct:
        print(j.strip())
    rating=ratings[n].xpath('.//text()')
    for k in rating:
        print(k.strip())
    comment=comments[n].xpath('.//text()')
    for m in comment:
        print(m.strip())

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(4条)

报告相同问题？

关注问题

Python爬虫实战之xpath解析
2022-08-01 19:59

阿浩(￣▽￣)的博客 XPath是一门在XML文档中查找信息的语言，最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在Python爬虫中，我们经常使用xpath解析这种高效便捷的方式来提取信息。
Python中爬虫编程的常见问题及解决方案
2024-07-21 14:22

IT大数据小助手的博客本文将介绍Python中爬虫编程的常见问题，并提供相应的解决方案以及具体的代码示例。爬虫编程是一项复杂且具有挑战性的任务，但通过充分的准备和学习，我们可以克服其中的困难和问题。2.分析Ajax请求：打开Chrome...
python——requests+xpath实现爬虫
2024-05-14 22:18

会逃跑的乌龟的博客本文章主要介绍使用python，通过requests+Xpath 爬虫的技术学习和实例。
Python爬虫-XPath学习
2022-08-25 23:46

~小黎同学~的博客虽然XPath代码比正则简单，但是遇到复杂饿节点写起来还是很肥脑子，接下来我们使用谷歌浏览器获取XPath代码，现在我们进入百度首页（https://www.baidu.com），然后右键点击检测按钮即可查看HTML代码，假设要爬取”...
爬虫实战遇到的问题及解决汇总 / 爬虫原理介绍
2020-01-26 21:22

Quest_sec的博客如何写一个爬虫程序爬取豆瓣内容？
Xpath解析与实战[可运行源码]
2025-11-12 16:45

Python作为一种广泛使用的编程语言，其在数据抓取和处理方面的功能强大，通过这些代码示例，读者可以直观地看到如何在Python环境中集成和使用Xpath。除了技术内容，作者还分享了个人编写这篇文章的心得体会，以及...
Python爬虫学习笔记_DAY_21_Python爬虫之xpath实战_批量下载高清美女图片【Python爬虫】
2022-02-08 23:04

跳探戈的小龙虾的博客 p.s....站长素材是国内最优质的几个素材网站，而且本次爬虫的目标图片完全免费开放，因此不涉及任何版权问题(求生欲！) 下图是部分的图片展示： II.查找接口并做xpath解析根据以往的经验，第一步
Python 爬虫必杀技：XPath
2021-07-03 15:42

丁鱼教育的博客小伙伴、大伙伴们，大家好~今天要给大家介绍的是... XPath即XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。现在问题来了，爬虫是从HTML网页上抓取信息，你给我介绍XML干嘛？实际上...
清华大学基于Java语言的《自己动手写网络爬虫》全部源码共10个章节.rar
2022-04-09 11:33

2. **Java编程基础**：作为课程的基础，你需要熟悉Java编程语言，包括基本语法、类、对象、异常处理等。Java以其跨平台性和强大的库支持，成为编写网络爬虫的常用语言。 3. **网络请求库**：在Java中，如...
盘点Python网络爬虫过程中xpath的联合查询定位一个案例
2022-09-16 09:00

Python进阶者的博客点击上方“Python爬虫与数据挖掘”，...一、前言前几天在Python钻石交流群【髙鵬】问了一个Python网络爬虫的问题，提问截图如下：原始代码如下：importtime fromseleniumimportwebdriver fromselenium.webdriver....
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月13日

关于xpath爬虫遇到的问题

5条回答 默认 最新

问题事件

5条回答默认最新