关于爬虫参数属性不对，无法继续爬取的问题！

刚学爬虫没多久，在学习的道路上遇到点问题：用xpath爬取时，由于是间接爬取，使得第一步爬取的网址的属性为列表（part_link），转换为字符串(part_link_s)后，准备继续爬取具体内容，但总是提示说参数(link)不对，求解答

res=requests.get(url,headers=headers)
selector=etree.HTML(res.text)
url_infos=selector.xpath('//div[@class="book-list"]/ul/li')
for url_info in url_infos:
    part_link=url_info.xpath('div[2]/a/@href')
    part_link_s=str(part_link)
    link='http:'+part_link_s
    res1=requests.get(link,headers=headers)
    selector=etree.HTML(res1.text)
    infos=selector.xpath('//div[@class="book-intro"]/p')
    for info in infos:
        f_link=info.xpath('div[1]/p')
        print(len(f_link))

运行后显示：
raise InvalidURL("Invalid URL %r: No host supplied" % url)
requests.exceptions.InvalidURL: Invalid URL 'http:[]': No host supplied

求告知如何解决

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-天际的海浪 2022-02-13 17:42
关注
url_info.xpath('div[2]/a/@href')返回的列表,要part_link[0]获取列表的第一个元素

part_link_s=str(part_link[0])

而且你 url_info.xpath('div[2]/a/@href')好像没有获取成功,返回的是一个空列表[]
你检查下xpath是否写正确, 路径前面要加./
part_link=url_info.xpath('./div[2]/a/@href')

res=requests.get(url,headers=headers) selector=etree.HTML(res.text) url_infos=selector.xpath('//div[@class="book-list"]/ul/li') for url_info in url_infos: part_link=url_info.xpath('./div[2]/a/@href') #路径前面要加./ part_link_s=str(part_link[0]) #加[0] link='http:'+part_link_s res1=requests.get(link,headers=headers) selector=etree.HTML(res1.text) infos=selector.xpath('//div[@class="book-intro"]/p') for info in infos: f_link=info.xpath('./div[1]/p') #路径前面要加./ print(len(f_link))

如有帮助，请点击我的回答下方的【采纳该答案】按钮帮忙采纳下，谢谢!
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python爬虫-爬取豆瓣音乐
2023-05-30 23:18

Python爬虫技术是数据获取的重要工具，特别是在网络信息丰富的今天，爬取网页数据成为数据分析、研究和应用的基础。本教程将聚焦于如何使用Python来爬取豆瓣音乐的相关信息，这涵盖了网页结构分析、HTTP请求、解析...
python爬虫框架scrapy实战之爬取京东商城进阶篇
2020-09-21 08:52

在Python的Web爬虫领域，Scrapy是一个功能强大的框架，常被用于高效地爬取和处理网站数据。本篇文章将深入探讨如何使用Scrapy爬取京东商城的商品信息，特别关注动态加载的内容。 **一、Scrapy框架基础** Scrapy是...
Python爬虫实例——scrapy框架爬取拉勾网招聘信息
2020-09-16 12:47

在本篇【Python爬虫实例——scrapy框架爬取拉勾网招聘信息】中，我们将探讨如何使用Python的Scrapy框架来抓取拉勾网上的Python相关职位信息。首先，我们需要理解整个爬取流程和分析思路。 1. **分析查询结果页**： ...
Python爬虫学习-简单爬取网页数据
2021-08-11 21:57

Polaris_T的博客这是一篇介绍如何用Python实现简单爬取网页数据并导入MySQL中的数据库的文章。主要用到BeautifulSoup requests 和 pymysql。以网页https://jbk.39.net/mxyy/jbzs/为例，假设我们要爬取的部分数据如下图所示...
爬虫开发-基于Python实现爬取one文艺网站的图片.zip
2024-04-03 11:56

8. **异常处理**：在爬虫过程中，可能会遇到网络错误、编码问题等异常，需要编写合适的异常处理代码，确保程序的健壮性。 9. **文件管理**：为了保持良好的文件结构，我们需要合理组织下载的图片，如按日期、内容...
【Python网络爬虫案例】python爬虫之爬取豆瓣电影信息
2024-08-04 17:55

左手の明天的博客豆瓣是一个电影资讯网站，用户可以在网站上查找电影信息、评论电影等。我们希望通过爬虫程序获取豆瓣电影的名称、评分和简介等信息，以便进行数据分析或制作推荐系统。
Python爬虫入门教程！手把手教会你爬取网页数据_python爬取网页数据
2024-04-27 16:14

rr8f2haQf的博客同时还可以知道，这个 start 参数应该是起到了类似于 page 的作用，start = 30 是第二页，start = 60 是第三页，依次类推，最后一页是 start = 420。当然，XPath 非常强大，但是语法也相对复杂，不过我们可以通过 ...
爬虫教程.docx关于使用Python爬取知乎热榜的相关代码片段
2024-04-12 15:02

- **解释**：通过设置`headers`参数中的`User-Agent`模拟浏览器访问，防止被网站识别为爬虫而拒绝服务。 2. **解析HTML**：提取热榜的标题和链接。 - **示例代码**： ```python soup = BeautifulSoup(content, ...
超强干货之---Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，直到遍历完所有节点。特点递归：通常用递归实现，或者使用栈来模拟递归过程。...
Python爬虫代码示例（3）爬取所有信息.zip
2022-11-26 21:05

在本篇中，我们将深入探讨Python爬虫代码示例（3），这是一系列教程的第三部分，旨在逐步教你如何利用Python进行网页数据抓取。在这个阶段，你将学习到更高级的技术，包括处理动态加载的内容、模拟登录以及爬取深...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月13日

关于爬虫参数属性不对，无法继续爬取的问题！

2条回答 默认 最新

问题事件

2条回答默认最新