(标签-爬虫|关键词-path)

求问xpath爬虫的全流程，之前找到的壁纸网站都是有//img元素的，所以可以直接使用这段程序：

result = requests.get(u)
data = etree.HTML(result.content)
d = data.xpath('/img')
cnt = 1
for i in d:
    newurl = i.xpath('./@src')[0]
    newname = '科幻朋克壁纸' + str(cnt)
    newurl = 'https:' + str(newurl)
    print(newurl)
    request.urlretrieve(newurl, r'D:\pictures\科幻朋克壁纸' + newname + '.jpg')
    print('<%s>下载完毕'%newname)
    cnt += 1

但是对这个网址进行爬虫的时候，发现它并没有img元素，该如何解决，求指点。

https://www.360kuai.com/pc/huabao?rawurl=http%3A%2F%2Fhuabao.360.cn%2F324822&tj_url=983b3c7c28db4456f&nsid=08e323dfa268ac2381cee5ea90b18279&scene=1&refer_scene=0_dhsrc:lm&sign=360_36e79513&uid=234898968.614991739000600700.1685096948516.9038&djsource=XsgsZg&tmprtp=expf%3Dcomindexo2043%2Copenscreenv3%2Ccube_gw%2Csearch_beta%2Ccube_new2021%26reqid%3D08e323dfa268ac2381cee5ea90b18279&hsid=70b9f698df143cf4

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-11-03 09:16
关注
【以下回答由 GPT 生成】

对于没有<img>元素的网页，我们可以使用其他方法来抓取网页中的图片链接。有两种常见的方法可以完成这个任务：使用正则表达式或使用第三方库BeautifulSoup。

方法1: 使用正则表达式

在这种情况下，我们可以使用正则表达式来匹配网页中的图片链接。以下是一个示例代码：

import re import requests result = requests.get(url) html_content = result.text # 使用正则表达式匹配图片链接 pattern = r'<img.*?src="(.*?)".*?>' matches = re.findall(pattern, html_content) cnt = 1 for match in matches: new_url = match new_name = '科幻朋克壁纸' + str(cnt) new_url = 'https:' + str(new_url) print(new_url) request.urlretrieve(new_url, r'D:\pictures\科幻朋克壁纸' + new_name + '.jpg') print('<%s>下载完毕' % new_name) cnt += 1

这段代码将使用正则表达式<img.*?src="(.*?)".*?>来匹配网页中的图片链接，并将其保存在matches列表中。然后我们可以像之前一样处理这些链接。

方法2: 使用BeautifulSoup

BeautifulSoup是一个优秀的第三方库，它可以方便地解析HTML和XML文档。以下是使用BeautifulSoup的示例代码：

from bs4 import BeautifulSoup import requests result = requests.get(url) html_content = result.text soup = BeautifulSoup(html_content, 'html.parser') # 使用BeautifulSoup提取图片链接 img_elements = soup.find_all('img') cnt = 1 for element in img_elements: new_url = element['src'] new_name = '科幻朋克壁纸' + str(cnt) new_url = 'https:' + str(new_url) print(new_url) request.urlretrieve(new_url, r'D:\pictures\科幻朋克壁纸' + new_name + '.jpg') print('<%s>下载完毕' % new_name) cnt += 1

这段代码通过使用BeautifulSoup库的find_all()函数找到所有的<img>元素，并提取它们的src属性值作为图片链接。然后我们可以像之前一样处理这些链接。

希望这些方法可以解决你的问题，如果有任何疑问，请随时提问。

【相关推荐】

这篇博客: xpath无法获取某些标签问题中的 某个div标签下面的img标签在代码中无法用xpath获取到 部分也许能够解决你的问题。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

爬虫基础---python爬虫系列2
2024-10-17 21:16

兆。的博客 --下载人生格言 python案例---下载美女图片案例总结 BS4--beautifulsoup4库 BS4语法对象的种类获取标签获取标签的名称获取标签的属性/属性值改变标签的属性值获取标签的文本内容获取注释部分的内容遍历文档...
python教程---网络爬虫
2024-06-30 18:28

东方佑的博客使用Selenium打开网页： from selenium import webdriver # 设置WebDriver的路径 driver_path = 'path/to/your/webdriver' # 创建WebDriver实例 driver = webdriver.Chrome(driver_path) # 打开网页 driver.get('...
Python学习篇32-爬虫基础
2023-08-13 02:03

Txtechcom的博客初识网络爬虫、爬虫的基本流程、HTTP协议、Beautiful Soup库、XPath
（2024最新毕设合集）基于SpringBoot的物流管理系统-76616|可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、全套文案
2024-08-27 12:00

vx_BS81330的博客采取面对对象的开发模式进行软件的开发和硬体的架设，能很好的满足实际使用的需求，完善了对应的软体架设以及程序编码的工作，采用B/S架构，前端框架采用了比较流行的渐进式JavaScript框架Vue，后端部分基于java的...
（2024最新毕设合集）基于Vue+SpringBoot技术的母婴知识线上教育系统-55319|可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据
2024-08-12 21:00

vx_BS81330的博客 关键词：基于SpringBoot+Vue技术的母婴知识线上教育系统；SpringBoot；Vue技术；需求分析；架构设计；数据库设计；功能实现；系统测试 Design and Implementation of an Online Education System for Maternal and ...
（2024最新毕设合集）基于SpringBoot的考研信息交流管理系统-80181|可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、文案
2025-01-17 12:00

vx_BS81330的博客系统后端采用Java语言开发，前端则结合了HTML5、CSS3和JavaScript等技术，提供了友好的用户界面和流畅的交互体验。在数据库设计方面，系统选用了MySQL数据库，并通过JPA实现数据的持久化存储和高效检索。
（2024最新毕设合集）基于Node.js的民族民俗文化分享平台-22552|可做计算机毕设JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、文案
2025-04-23 21:00

vx_BS81330的博客机构用户则能够发布和管理自己的民俗新闻、民宿信息...管理员通过后台管理系统，全面监控平台内容，包括用户管理、民族标签管理、民俗新闻与信息管理、活动管理、报名管理、系统轮播图与公告信息管理，以及资源管理等。
（2024最新毕设合集）基于SpringBoot的校园快递物品代取APP-85594|可做计算机毕设JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、文案
2025-04-28 17:33

vx_BS81330的博客首先，通过对校园快递...然后，利用SpringBoot框架搭建了系统的后端服务，并使用MySQL数据库进行数据存储。同时，为了实现系统与用户的交互，采用了前后端分离的架构设计，使用Vue.js等技术进行前端页面的设计和开发。
后端领域爬虫在电商平台竞品数据采集中的策略
2025-07-08 23:26

大厂资深架构师的博客竞争对手的新款手机定价...这时候，后端爬虫就成了"自动收集数据的小助手"，它能模拟人类浏览网页的行为，批量抓取所需信息，为竞品分析提供数据支撑。本文的范围是：聚焦后端爬虫技术在电商竞品数据采集中的核心策略。
（2024最新毕设合集）基于SSM的足球俱乐部管理系统-21618|可做计算机毕设JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、文案
2025-05-30 17:43

vx_BS81330的博客通过前端技术（HTML、CSS、JavaScript）精心设计用户界面，实现用户友好的操作体验。在后端方面，利用Spring框架实现业务逻辑控制，SpringMVC处理前后端交互，MyBatis负责数据库操作，构建稳健高效的系统架构。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月2日

(标签-爬虫|关键词-path)

1条回答 默认 最新

问题事件

1条回答默认最新