编程小花菜 2023-02-20 09:01 采纳率: 71.4%
浏览 28
已结题

xpath表达式,爬虫无法爬取


这个表达式哪里出错了,我无法爬取网页的东西
```python
import requests
import pandas as pd
from lxml import etree
from bs4 import BeautifulSoup

headers={'User-Agent':'Mozilla/5.0(Windows NT 10.0;win64;x64)ApplewebKit/537.36(KHTML,like Gecko)Chrome/78.0.3904.108Safari/537.36'}

for i in range(1,26):
    url=r"http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent30-0-0-1-{}".format(i)
    html_date=requests.get(url,headers=headers,timeout=10)
    html_text=html_date.text
    #print(html_text)
    html=etree.HTML(html_text)
    print(html.xpath("/html/body/div[3]/div[3]/div[2]/ul/li[1]/div[2]/a/img[@class='alt']"))


```

  • 写回答

5条回答 默认 最新

  • 7*24 工作者 2023-02-20 12:21
    关注
    
    import requests
    import pandas as pd
    from lxml import etree
    from bs4 import BeautifulSoup
    
    headers = {
        'User-Agent': 'Mozilla/5.0(Windows NT 10.0;win64;x64)ApplewebKit/537.36(KHTML,like Gecko)Chrome/78.0.3904.108Safari/537.36'}
    
    for i in range(1, 26):
        url = "http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent30-0-0-1-{}".format(i)
        html_date = requests.get(url, headers=headers, timeout=10)
        html_text = html_date.text
        # print(html_text)
        html = etree.HTML(html_text)
        print(  html.xpath('//ul[@class="bang_list clearfix bang_list_mode"]/li/div[@class="pic"]/a/img/@alt')  )     #从源代码里面找到的
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(4条)

报告相同问题?

问题事件

  • 系统已结题 2月28日
  • 已采纳回答 2月20日
  • 创建了问题 2月20日

悬赏问题

  • ¥15 使用ue5插件narrative时如何切换关卡也保存叙事任务记录
  • ¥20 软件测试决策法疑问求解答
  • ¥15 win11 23H2删除推荐的项目,支持注册表等
  • ¥15 matlab 用yalmip搭建模型,cplex求解,线性化处理的方法
  • ¥15 qt6.6.3 基于百度云的语音识别 不会改
  • ¥15 关于#目标检测#的问题:大概就是类似后台自动检测某下架商品的库存,在他监测到该商品上架并且可以购买的瞬间点击立即购买下单
  • ¥15 神经网络怎么把隐含层变量融合到损失函数中?
  • ¥15 lingo18勾选global solver求解使用的算法
  • ¥15 全部备份安卓app数据包括密码,可以复制到另一手机上运行
  • ¥20 测距传感器数据手册i2c