XPath无法准确获取怎么办

参照《从零开始学网络爬虫》案例，爬取豆瓣图书Top250的信息

https://book.douban.com/top250

爬取前需要用XPath获取书名、作者等标签信息，在浏览器中检查网页信息，并右击，copy XPath获取元素的XPath

图片说明

书中原版代码如下

import csv
from lxml import etree
import requests


headers =  {
    'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'
}
urls = ['https://book.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)]
wenben = open('E:\demo.csv','wt',newline='',encoding='utf-8')
writer = csv.writer(wenben)
writer.writerow(('name','url','author','publisher','date','price','rate','comment'))

for url in urls:
    html = requests.get(url,headers=headers)
    selector = etree.HTML(html.text)
    infos = selector.xpath('//tr[@class="item"]')

    for info in infos:
        name = info.xpath('td/div/a/@title')[0]
        url = info.xpath('td/div/a/@href')[0]
        book_infos = info.xpath('td/p/text()')[0]
        author = book_infos.split('/')[0]
        publisher = book_infos.split('/')[-3]
        date = book_infos.split('/')[-2]
        price = book_infos.split('/')[-1]
        rate = info.xpath('td/div/span[2]/text()')[0]
        comments = info.xpath('td/div/span[2]/text()')[0]
        comment = comments[0] if len(comments) != 0 else "空"
        writer.writerow((name,url,author,publisher,date,price,rate,comment))
        print(name)
wenben.close()
print("输出完成！")

可以发现，以书名为例，原版中获取的XPath如下

'td/div/a/@title'

但是我通过浏览器检查元素获取到的XPath如下

*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div[1]/a

而且按照自己获取的XPath进行爬取，并不能爬取到网页信息。只有按照原版的XPath才能正确爬取到网页信息。
请问各位大神，为什么从浏览器端获取的XPath与案例并不一致，如何自行获取正确的XPath

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

7*24 工作者 2020-02-16 16:23

关注

修改后的代码

#!/usr/bin/env python
#-*- coding:utf-8 -*-
import csv
from lxml import etree
import requests

headers =  {
    'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'
}
urls = ['https://book.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)]
wenben = open('E:\demo.csv','wt',newline='',encoding='utf-8')
writer = csv.writer(wenben)
writer.writerow(('name','url','author','publisher','date','price','rate','comment'))

for url in urls:
    html = requests.get(url,headers=headers)
    selector = etree.HTML(html.text)
    infos = selector.xpath('//tr[@class="item"]')

    for info in infos:
        name = info.xpath('td')[1].xpath('./div/a/@title')[0]
        url = info.xpath('td')[1].xpath('./div/a/@href')[0]
        book_infos = info.xpath('td')[1].xpath('./p/text()')[0]
        author = book_infos.split('/')[0]
        publisher = book_infos.split('/')[-3]
        date = book_infos.split('/')[-2]
        price = book_infos.split('/')[-1]
        rate = info.xpath('td')[1].xpath('./div[2]/span[2]/text()')[0]
        comments = info.xpath('td')[1].xpath('./div[2]/span[3]/text()')[0]
        comment = comments.replace("(","").replace(")","").replace("\n","").replace(" ","") if len(comments) != 0 else "空"
        writer.writerow((name,url,author,publisher,date,price,rate,comment))

wenben.close()
print("输出完成！")

我看了下，是你自己定位有问题，在 infos 下面有两个 td 标签，而主要内容都在第2个 td标签下，但是通过td/div/a/@title获取的是第1个 td标签下内容，所有获取不到信息

报告相同问题？

关注问题

python的xpath表达式无法获取文本 python 数据挖掘
2021-11-22 20:58

回答 2 已采纳表达式有问题，这个html源码你用xpath取得话是有两个值的，所以索引0是搜不到。正确写法应该是把0换成2
python3.10 xpath安装失败使用网上的办法无法解决，请求解答 python 有问必答
2022-01-11 23:14

回答 2 已采纳 xpath是用于对xml或html文档信息搜索工具，在python中是lxml的方法，只需pip 安装 lxml,就可以使用xpath来解析网页了。具体参考：https://zhuanlan.zhih
python爬虫通过xpath无法正常解析欲爬取元素 html python 爬虫
2022-01-04 18:04

回答 2 已采纳我是JAVA的xpath html.xpath("//table[@id='main_table_countries_today']/tbody/tr[@style=' ']").你看着修改下
为什么浏览器上xpath可以获取数据，python中无法获取
2021-09-18 13:08

Python伊甸园的博客偶尔我们在写爬虫的时候会遇到这样一个问题，在浏览器上写的xpath语法明明可以获得数据，但是到python里面，一模一样的xpath语法却无法得到数据，这个问题出现在哪里呢？原因一：浏览器上的xpath是根据浏览器...
xpath爬取图片，得不到src ，python求解决 python 有问必答爬虫
2022-01-27 12:25

回答 4 已采纳图片是js解析出来的，xpath无效，数据在js变量里面，正则提取下数据用json.loads加载获取代码如下 import requests import re import json def
python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python如何用xpath取两个标签之间的内容 python 爬虫
2022-05-18 17:43

回答 3 已采纳 //span[text()="名字:"]/following::a[position()<count(//span[text()="名字:"]/following::a)-count(//spa
【Python从入门到进阶】28、xpath的安装以及使用
2023-07-15 10:30

光仔December的博客 XPath是由W3C（World Wide Web Consortium）组织发布的。W3C是一个国际性组织，负责制定Web标准和推动Web技术的发展。XPath最初在1999年发布，并成为XML Path Language的一部分。它由James Clark提出并提交给W3C进行...
python+selenium+xpath如何定位网页table表格中的数据 python selenium 有问必答爬虫
2022-02-25 12:44

回答 2 已采纳使用last()定位最后一个tr节点，再用索引获取。示例： from lxml import etree with open('a.html','r',encoding='utf-8') as f:
Python无法使用xpath解析带命名空间的html标签 html python 爬虫
2022-04-13 10:57

回答 1 已采纳 xml.etree.ElementTree --- ElementTree XML API基本库了解一下解析带有命名空间的 XML 如果 XML 输入带有命名空间，则具有前缀的 prefix:s
Xpath无法定位含a标签的span中的任意元素 html python 有问必答爬虫
2021-12-25 14:09

回答 1 已采纳 from lxml import etree con = """<html> <body><span> <img src="xxx" alt="xx
python爬虫之xpath的使用
2022-08-20 17:59

谦虚且进步的博客 python爬虫之xpath的使用
Python爬虫 xpath 列表为空 python 有问必答爬虫
2022-03-08 08:32

回答 2 已采纳第二个li的div下少了结束标签导致etree解析出错了少了div结束标签后，etree将建筑类别后的几点全部归类到第二li下了，改下面这样就可以了 import requests from lxm
【Python爬虫开发基础⑧】XPath库及其基本用法
2023-06-27 13:18

为梦而生~的博客路径表达式：XPath使用路径表达式从根节点开始，沿着节点之间的层级关系依次定位目标节点。常见的路径表达式有以下几种形式：表达式意义表示从根节点开始选择。//表示在整个文档中选择节点。。(点)表示当前节点。。...
python爬虫系列：xpath爬取图片讲解（零基础向）
2021-06-23 18:33

西门林一的博客例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入...
没有解决我的问题, 去提问

悬赏问题

¥15 51单片机中C语言怎么做到下面类似的功能的函数（相关搜索：c语言）
¥15 seatunnel 怎么配置Elasticsearch
¥15 PSCAD安装问题 ERROR: Visual Studio 2013, 2015, 2017 or 2019 is not found in the system.
¥15 (标签-MATLAB|关键词-多址)
¥15 关于#MATLAB#的问题，如何解决？（相关搜索：信噪比，系统容量）
¥500 52810做蓝牙接受端
¥15 基于PLC的三轴机械手程序
¥15 多址通信方式的抗噪声性能和系统容量对比
¥15 msix packaging tool打包问题
¥15 finalshell节点的搭建代码和那个端口代码教程

码龄粉丝数原力等级 --

XPath无法准确获取怎么办

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

XPath无法准确获取怎么办

1条回答 默认 最新

悬赏问题

1条回答默认最新