关于#爬虫#的问题：报错如下（这个网页.com/pages/page3.html）(语言-python)

自学python爬虫
代码如下

from bs4 import BeautifulSoup
import requests

html=requests.get('https://www.pythonscraping.com/pages/page3.html').text
soup=BeautifulSoup(html,'html.parser')

print(soup.find('img',{'src':'../img/gifts/img1.jpg'}).parent.previous_siblings.get_text())

报错如下（这个网页https://www.pythonscraping.com/pages/page3.html）

Traceback (most recent call last):
  File "butf.py", line 7, in <module>
    print(soup.find('img',{'src':'../img/gifts/img1.jpg'}).parent.previous_siblings.get_text())
AttributeError: 'generator' object has no attribute 'get_text'

弄弄很久了。help me，就是跟说上说的返回父标签的上一个兄弟标签不一样

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
一轮明月照丘壑 2024-09-29 18:48
关注
以下回复参考：皆我百晓生、券券喵儿等免费微信小程序作答:

这个错误提示的原因是 soup.find('img', {'src':'../img/gifts/img1.jpg'}).parent.previous_siblings 返回的是一个生成器对象（generator），而不是一个可以直接访问其 get_text() 方法的对象。你需要先获取到生成器的内容再进行操作。这里我们可以使用列表推导式（list comprehension）将生成器转化为列表，然后访问其中的 get_text() 方法。下面是修改后的代码：

from bs4 import BeautifulSoup import requests html = requests.get('https://www.pythonscraping.com/pages/page3.html').text soup = BeautifulSoup(html, 'html.parser') img_tag = soup.find('img', {'src':'../img/gifts/img1.jpg'}) if img_tag: # 检查 img 标签是否存在 siblings_text = [sibling.get_text() for sibling in img_tag.parent.previous_siblings] # 使用列表推导式获取生成器的文本内容 print("".join(siblings_text)) # 输出文本内容，如果需要分隔字符则用 join 函数合并列表内容 else: print("未找到符合条件的 img 标签") # 如果未找到标签则输出提示信息

这样修改后，应该可以正确获取到父标签的上一个兄弟标签的文本内容。注意这里也添加了检查 img 标签是否存在的逻辑，以防找不到标签时出现错误。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫代码运行不报错，但是保存到CSV的数据为空，是哪里出了问题 python
2022-08-09 16:38

回答 8 已采纳 respone.text获取的json数据格式有问题,用 json.loads(respone.text)解析出错另外写csv文件的代码要放到for循环外面,所有数据获取之后再一起写入 cit
爬虫scrapy框架爬不出来，但是request可以出来 http python 爬虫
2022-05-06 00:26

回答 2 已采纳你应该继承 scrapy.SpiderCrawlSpider 不要自定义 parse 函数。
在以瀑布流方式翻页的网站,使用scrapy网络爬虫,但是只爬取了第一页数据,没有爬取第二页. python 爬虫
2021-09-05 19:18

回答 2 已采纳那叫ajax，
python--爬虫--获取和解析存储网页内容--以薄荷网为例
2019-04-10 17:03

张小凡vip的博客如需转载请注明出处:python–爬虫–获取和解析存储网页内容–以薄荷网为例我们在之前的文章中已经学习了如何进行数据抓包和截取以及分析访问网页。例如: 抓取app数据教程–fiddler抓包数据截取-薄荷app为例本章...
python爬虫获取内容不全是怎么回事？ python 爬虫
2023-03-01 15:21

回答 2 已采纳你访问的这个接口就只有五千多条数据，您可以在返回的数据中看到，你可以把获取到的数据输出下resp.json()：totalCount': 5860, 'totalPages': 59因此，如果要爬取更
python爬虫运行成功但是数据没有输出 python 爬虫
2023-02-24 11:31

回答 8 已采纳选择a标签的时候错误了，应该是 title_tags = tag.select('a')，这样选择每一个a标签，因为 article_tags = soup.select('.docsum-cont
用python爬虫无法导出数据 json python 爬虫
2023-03-01 20:22

回答 3 已采纳回答不易，望采纳！这一行代码报错了应该是连页面内容都没有爬下来，后边更别谈格式化处理了。检查一下你的 cookie 是不是过期了吧
Python库 | pdfmajor-1.1.3-py3-none-any.whl
2022-02-18 10:05

这个库的安装通常通过Python的包管理器pip完成，而我们这里提供的是一个`.whl`格式的压缩包，这是一种预先编译的Python二进制文件，可以直接安装，无需编译源代码。 **Python开发语言** Python是一种高级、通用的...
爬虫报错，刷新过于频繁。不知如何解决。 python selenium
2021-10-23 09:38

回答 1 已采纳错误的信息大概意思是：你要点击的元素没有被挂载在dom树中(页面上)大概看了一下你的代码：首先这个问题是因为你在切换窗口后，没有切换回到起始的窗口。elements = driver.find_ele
爬虫显示成功，但是保存的json文件里都是none，如何解决呢？ html python 爬虫
2022-06-24 16:12

回答 3 已采纳看你自己输出的日志2022-06-24 16:02:42,409 - INFO: get detail data {'cover': None, 'name': None, 'categories':
Python selenium的爬虫无法完整爬取整个页面的内容 python selenium 爬虫
2021-10-24 09:44

回答 1 已采纳爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄VIP内容肯定是需要你的账号是VIP才能看得到的，与selen
python：逐梦计划项目爬取&企业微信推送
2022-05-25 15:48

派圣的博客逐梦计划是四川大学生的...i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com 如果python运行时出现SSL问题，需要在代码里面加，这个问题主要是我在codeup里面出现： import ssl ssl._create_default_...
python爬虫去哪网热门景点 python 爬虫
2018-06-22 07:53

回答 1 已采纳用fiddler抓包看下，要么是第三页的地址或者参数没有对，要么是服务器有反爬虫的机制（比如频繁访问，返回错误页面、验证码）。
Selenium配合chromedriver爬取网页pythonscraping.com/pages/javascript/ajaxDemo.html遇到的问题记录
2020-08-23 10:51

阿智智的博客利用urllib.request.urlopen、或者requests.get()等方法爬取网页有一个不适用的场景是：当网页是一个JavaScript驱动时。这时得到的是预加载的内容，而不是自己真正想要的内容。如果此时，我们用浏览器手工看到的网页...
Python爬虫-抓取PC端网易云音乐评论(GUI界面)
2021-08-18 11:56

Van-bo的博客所有的歌曲相关信息都在result里面，每个a标签（超链接）里面携带着大量信息，包括歌曲名，id号，演唱者等等，这里最需要的最关键的一个信息就是它的id号，因为歌曲名作者可能会重复，但是id是唯一的，可以通过id来...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月29日

悬赏问题

¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见
¥15 一共有五道问题关于整数幂的运算还有房间号码还有网络密码的解答？(语言-python)
¥20 sentry如何捕获上传Android ndk 崩溃
¥15 在做logistic回归模型限制性立方条图时候，不能出完整图的困难
¥15 G0系列单片机HAL库中景园gc9307液晶驱动芯片无法使用硬件SPI+DMA驱动，如何解决？
¥15 nasm x86 变量归零
¥65 Tree 树形控件实现单选功能,可以使用element也可以手写一个,实现全选为全选状态
¥60 寻抓云闪付tn组成网页付款链接
¥16 寻字节跳动内部人员帮推简历

关于#爬虫#的问题：报错如下（这个网页.com/pages/page3.html）(语言-python)

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新