xpath表达式，爬虫无法爬取


这个表达式哪里出错了，我无法爬取网页的东西
```python
import requests
import pandas as pd
from lxml import etree
from bs4 import BeautifulSoup

headers={'User-Agent':'Mozilla/5.0(Windows NT 10.0;win64;x64)ApplewebKit/537.36(KHTML,like Gecko)Chrome/78.0.3904.108Safari/537.36'}

for i in range(1,26):
    url=r"http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent30-0-0-1-{}".format(i)
    html_date=requests.get(url,headers=headers,timeout=10)
    html_text=html_date.text
    #print(html_text)
    html=etree.HTML(html_text)
    print(html.xpath("/html/body/div[3]/div[3]/div[2]/ul/li[1]/div[2]/a/img[@class='alt']"))

```

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

7*24 工作者 2023-02-20 12:21

关注


import requests
import pandas as pd
from lxml import etree
from bs4 import BeautifulSoup

headers = {
    'User-Agent': 'Mozilla/5.0(Windows NT 10.0;win64;x64)ApplewebKit/537.36(KHTML,like Gecko)Chrome/78.0.3904.108Safari/537.36'}

for i in range(1, 26):
    url = "http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent30-0-0-1-{}".format(i)
    html_date = requests.get(url, headers=headers, timeout=10)
    html_text = html_date.text
    # print(html_text)
    html = etree.HTML(html_text)
    print(  html.xpath('//ul[@class="bang_list clearfix bang_list_mode"]/li/div[@class="pic"]/a/img/@alt')  )     #从源代码里面找到的

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(4条)

报告相同问题？

关注问题

xpath表达式，爬虫无法爬取 python
2023-02-20 09:01

回答 5 已采纳 import requests import pandas as pd from lxml import etree from bs4 import BeautifulSoup headers =
Python爬虫 XPath 爬取的数据为空 python
2021-11-20 15:43

回答 2 已采纳
python爬虫通过xpath无法正常解析欲爬取元素 html python 爬虫
2022-01-04 18:04

回答 2 已采纳我是JAVA的xpath html.xpath("//table[@id='main_table_countries_today']/tbody/tr[@style=' ']").你看着修改下
网络爬虫——XPath表达式
2020-02-05 12:45

程序员小哲的博客 XPath表达式基础讲解一、什么是XPath表达式 Xpath是XML路径语言，提供了在数据结构树种寻找节点的能力，所以Xpath被开发者们当做一种小型的查询语言。匹配语句 / 逐层提取 text() 提取标签下面...
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
python爬虫,爬取的数据异常，如何解决？ python 爬虫
2023-02-22 21:55

回答 3 已采纳这个问题在于html_data()函数中的return语句放在了for循环内部，这导致函数只能返回第一个电影的信息。把return语句缩进移动到for循环之外，这样才能返回整个页面的电影信息。另外，s
python的xpath表达式无法获取文本 python 数据挖掘
2021-11-22 20:58

回答 2 已采纳 表达式有问题，这个html源码你用xpath取得话是有两个值的，所以索引0是搜不到。正确写法应该是把0换成2
Python爬虫实战之xpath解析
2022-08-01 19:59

阿浩(￣▽￣)的博客 XPath是一门在XML文档中查找信息的语言，最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在Python爬虫中，我们经常使用xpath解析这种高效便捷的方式来提取信息。
Python selenium的爬虫无法完整爬取整个页面的内容 python selenium 爬虫
2021-10-24 09:44

回答 1 已采纳爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄VIP内容肯定是需要你的账号是VIP才能看得到的，与selen
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
python爬虫如何垂直爬取网页内容？ python 开发语言爬虫
2021-11-29 19:12

回答 1 已采纳 img = requests.get(url=img_url) # img_url：图片的路径 with open('{}.jpg'.format(n), 'wb') as f: # n：文件名
爬虫入门之xpath解析
2022-08-29 23:58

stiinput的博客摘要：Python爬虫库中有一种语法，Xpath语法，可以对网页内容进行详细的解析，能够让我们在爬取网页内容时，省时高效。
python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
20-爬虫之xpath
2022-08-19 08:56

兮知的博客 xpath
Python爬虫基础（二）：使用xpath与jsonpath解析爬取的数据
2023-09-12 11:06

秃了也弱了。的博客所以说，想要使用JsonPath解析JSON，只能将爬取的json数据保存到本地之后，才能进行解析。XPathJSONPath表示根元素当前元素. or []子元素n/a父元素//递归下降，JSONPath是从E4X借鉴的。通配符，表示所有的元素n/a...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月20日

悬赏问题

¥15 使用ue5插件narrative时如何切换关卡也保存叙事任务记录
¥20 软件测试决策法疑问求解答
¥15 win11 23H2删除推荐的项目，支持注册表等
¥15 matlab 用yalmip搭建模型，cplex求解，线性化处理的方法
¥15 qt6.6.3 基于百度云的语音识别不会改
¥15 关于#目标检测#的问题：大概就是类似后台自动检测某下架商品的库存，在他监测到该商品上架并且可以购买的瞬间点击立即购买下单
¥15 神经网络怎么把隐含层变量融合到损失函数中？
¥15 lingo18勾选global solver求解使用的算法
¥15 全部备份安卓app数据包括密码，可以复制到另一手机上运行
¥20 测距传感器数据手册i2c

xpath表达式，爬虫无法爬取

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新