关于xpath爬虫遇到的问题

请问各位，用xpath提取评语（比如图片中标黄的：微信读书，推荐回想剧场有声响）怎么提取呀，本来（759548人评价）也不会的后来百度解决了，这第二个问题实在不会，麻烦各位优秀的程序员（媛）解答谢谢，谢谢

结果


"""
豆瓣图书top250数据抓取-lxml+xpath
"""

import requests
from lxml import etree
import time
import random
from  fake_useragent import UserAgent

class DoubanBookSpider:
    def __init__(self):
        self.url='https://www.douban.com/doulist/139873963/?start={}'


    def get_html(self,url):
        """请求函数-获取html"""
        headers={"User-Agent":UserAgent().random}
        html=requests.get(url=url,headers=headers).content.decode('utf-8','ignore')
        # 直接调用解析函数
        self.parse_html(html)

    def parse_html(self, html):
        """解析函数-解析提取数据"""
        parse=etree.HTML(html)
        table_list=parse.xpath('//div[@class="article"]')
        for table in table_list:
            item={}
            # item["name"]=table.xpath('.//div[@class="title"]/a/text()')
            # # print(item["name"])
            # item["comment"]=table.xpath('.//div[@class="abstract"]/text()')
            # # print(item["comment"])
            # item["score"]=table.xpath('.//span[@class="rating_nums"]/text()')
            # # print(item["score"])
            # item["number"]=table.xpath('.//div[@class="rating"]/span/text()')
            # # print(item["number"])
            # item["instructions"] = table.xpath('.//blockquote[@class="comment"]/text()')
            # # print(item["instructions"])
            # print(item)

             # 书的名称
            name_list=table.xpath('.//div[@class="title"]/a/text()')
            item["name"]=name_list[0].strip() if name_list else None
            # 以上相当于x=3 if 5>2 else 8

            # 书的描述
            comment_list=table.xpath('.//div[@class="abstract"]/text()')
            item["comment"] = comment_list[0].strip() if name_list else None

            # 书的评分
            comment_list=table.xpath('.//span[@class="rating_nums"]/text()')
            item["score"] = comment_list[0].strip() if name_list else None

            # 评论人数
            number_list=table.xpath('.//div[@class="rating"]/span[count(@*)=0]/text()')
            item["number"]= number_list[2].strip() if name_list else None

            # 评语
            instructions_list = table.xpath('.//blockquote[@class="comment"]/span/text()')
            item["instructions"]= instructions_list[0].strip() if name_list else None
            print(item)


    def run(self):
        for page in range(1,11):
            start=(page-1)*25
            page_url=self.url.format(start)
            self.get_html(url=page_url)
            # 控制数据抓取的频率
            time.sleep(random.uniform(0,2))

if __name__ == '__main__':
    spider=DoubanBookSpider()
    spider.run()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

cjh4312 2023-03-13 18:05

关注


titles=html.xpath('//*[@class="title"]/a//text()')
abstracts=html.xpath('//*[@class="abstract"]')
ratings=html.xpath('//*[@class="rating"]')
comments=html.xpath('//*[@class="comment"]')
for n,i in enumerate(titles):
    print(f'{n+1}.{i.strip()}')
    abstarct=abstracts[n].xpath('.//text()')
    for j in abstarct:
        print(j.strip())
    rating=ratings[n].xpath('.//text()')
    for k in rating:
        print(k.strip())
    comment=comments[n].xpath('.//text()')
    for m in comment:
        print(m.strip())

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(4条)

报告相同问题？

关注问题

关于xpath爬虫遇到的问题 python 其他爬虫
2023-03-13 17:09

回答 5 已采纳 titles=html.xpath('//*[@class="title"]/a//text()') abstracts=html.xpath('//*[@class="abstract"]') r
python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
如何在用xpath爬虫时遇到的语法错误，一直报错？(语言-python) python 爬虫
2022-07-07 17:50

回答 2 已采纳这串语句你在python里面运行的？
Python爬虫实战之xpath解析
2022-08-01 19:59

阿浩(￣▽￣)的博客 XPath是一门在XML文档中查找信息的语言，最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在Python爬虫中，我们经常使用xpath解析这种高效便捷的方式来提取信息。
爬虫xpath提取数字的问题，希望得到解答 python 后端爬虫
2022-01-10 19:47

回答 3 已采纳已经找到原因，爬取的为静态的数据，对动态数据会有问题
xpath爬虫小说正文爬不到 python
2021-08-16 09:51

回答 2 已采纳看了下这个用上级标签 id =content 来匹配然后用string(.) 方法提取标签下所有内容。再对脏数据做下剔除清洗。
关于python 爬虫项目多线程的问题！ python 有问必答爬虫
2022-04-09 22:19

回答 2 已采纳用pypy,namba（需重构，加装饰器）,cython（需重构，显式声明类型）用正则表达式更快，但适用性会降低灵活运用异步减少中间值的使用少用for循环控制线程数量，考虑协程、多进程，因为有GIL的
Python爬虫-XPath学习
2022-08-25 23:46

小白哒哒的博客虽然XPath代码比正则简单，但是遇到复杂饿节点写起来还是很肥脑子，接下来我们使用谷歌浏览器获取XPath代码，现在我们进入百度首页（https://www.baidu.com），然后右键点击检测按钮即可查看HTML代码，假设要爬取”...
关于#xpath#的问题，如何解决？ python 爬虫
2022-12-30 17:31

回答 1 已采纳应该是你get这个网页里面没有这个数据，需要二次加载
html.xpath爬虫 python 有问必答
2022-04-09 15:07

回答 4 已采纳题主使用requests.get获取源代码的吧？这样接口或者js生成的内容xpath获取不到的，需要通过开发工具找到数据接口来获取数据或者使用selenium来采集才行
关于xpath返回空列表的问题 python 有问必答
2021-12-06 18:59

回答 1 已采纳你这个网页中的内容是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通过F12控
爬虫实战遇到的问题及解决汇总 / 爬虫原理介绍
2020-01-26 21:22

Quest_sec的博客如何写一个爬虫程序爬取豆瓣内容？
学习爬虫遇到问题，请各位提供思路爬虫
2022-07-15 15:18

回答 2 已采纳你看这："//[@id="contentTable"]/tbody" ，你这里是不是有4个双引号，从左往右开始，第一个双引号找离它最近的一个双引号配成一对。"//[@id=""]/tbody"也是一队
Python爬虫学习笔记_DAY_21_Python爬虫之xpath实战_批量下载高清美女图片【Python爬虫】
2022-02-08 23:04

跳探戈的小龙虾的博客 p.s....站长素材是国内最优质的几个素材网站，而且本次爬虫的目标图片完全免费开放，因此不涉及任何版权问题(求生欲！) 下图是部分的图片展示： II.查找接口并做xpath解析根据以往的经验，第一步
Python爬虫Xpath语法快速入门教程！
2020-09-06 22:15

Python_sn的博客文章目录 1、Xpath介绍 2、Xpath路径表达式 3、结合实例讲解很多人学习python，不知道从何学起。很多人学习python，掌握了...XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月13日

悬赏问题

¥15 yolov8边框坐标
¥15 matlab中使用gurobi时报错
¥15 WPF 大屏看板表格背景图片设置
¥15 这个主板怎么能扩出一两个sata口
¥15 不是，这到底错哪儿了😭
¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真

关于xpath爬虫遇到的问题

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新