爬虫关于获取标签内容的问题

代码

html=html=urlopen('https://www.qidian.com/rank/yuepiao/year2022-month08/')
obj=BeautifulSoup(html,'lxml')
for i in obj.find('ul',{'class':'list_type_detective'}).find_all('a',href=re.compile('^(www)')):
print（i）

问题
这种find（）.findall（）的形式是不行吗，为什么爬取不到a标签

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

梦里逆天 2022-09-06 00:23

关注


import re
from urllib.request import urlopen

from bs4 import BeautifulSoup

html = urlopen('https://www.qidian.com/rank/yuepiao/year2022-month08/')
# print(html)
obj = BeautifulSoup(html, 'lxml')
# print(obj)
for i in obj.find(attrs={'class': 'list_type_detective'}):  # 提取class为list_type_detective的元素
    print(i)
print('*'*8)
for i in obj.select('ul.list_type_detective > li > a'):  # 提取class为list_type_detective的ul里的li中的a标签
    print(i['href'])
print('-'*8)
for i in obj.find_all('a', href=re.compile('^//www')):  # 提取以”//www"开头的a标签
    print(i)

可参考：https://baijiahao.baidu.com/s?id=1703234898700447231&wfr=spider&for=pc

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

爬虫关于获取标签内容的问题 python 大数据
2022-09-05 23:42

回答 2 已采纳 import re from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen('https:
python爬虫网页标签个别无法读取 python 开发语言有问必答爬虫
2022-04-05 22:09

回答 3 已采纳因为个别标签字典中没有bond_nm和bond_nm_tip键 data2 = data_get['bond_nm'] data5 = data_get['bond_nm_tip']
爬虫如何获取未展开的div标签爬虫
2022-08-30 09:19

回答 5 已采纳因为div里的内容，使用过ajax加载的，所以爬虫获取的网页源码是没有里面的内容的，这种数据相对来说方便一点，直接可以抓包拿到相应的ajax请求，然后直接reqeusts模块发送请求就可以拿到数据了，
Python爬虫入门8：BeautifulSoup获取html标签相关属性
2021-01-30 10:17

LaoYuanPython的博客本节介绍了BeautifulSoup对象的主要属性，通过这些属性可以访问特定标签和内容。
爬虫 POST请求获取网页标题内容 python 爬虫
2022-10-26 16:35

回答 1 已采纳 post和get方法的使用不是你决定的，二十接口使用的是什么请求方式，如果它是get请求那就只能用get请求，是post就只能用post
爬虫问题批量获取m3u8 python 爬虫
2022-11-15 16:31

回答 6 已采纳链接发一下
关于爬虫获取接口数据的问题 python
2020-08-24 23:29

回答 3 已采纳您好：对于这个网页，他的数据应该就在你发的url里，我在源码的第181行看到了疑似数据的内容应该是用json写在了标签里 ![图片说明](https://img-a
【python爬虫】爬虫编程技术的解密与实战
2024-01-26 10:29

SarPro的博客《【Python爬虫】爬虫编程技术的解密与实战》深入剖析了爬虫技术的精髓，并提供了实际应用的实战经验。作者首先解密了Python爬虫编程的关键技术，涵盖了网页解析、数据提取、请求模拟等方面。通过详细而易懂的讲解，...
关于爬虫爬取动态网站的问题 python 有问必答爬虫
2022-04-17 18:40

回答 2 已采纳你这个网页中的内容通过 js代码读取外部json数据来动态更新的。可以通过F12控制台分析页面数据加载的链接，找到真正json数据的地址进行爬取。或者参考selenium滚动到页面底部的几种解决方案
关于爬虫爬取页数的问题 json python 爬虫
2022-09-14 23:27

回答 2 已采纳 import requests import re import json import time fh = open('测试写入.txt', 'a') for i in range(1, 20,
Python爬虫动态页面获取问题 python 爬虫
2021-12-08 16:12

回答 1 已采纳爬错了，是这个https://wax.alcor.exchange/api/markets
全网最全python爬虫精进
2021-04-25 17:33

yk 坤帝的博客因为这些数据是用计算机的语言写的，浏览器还要把这些数据翻译成我们能看得懂的内容；（2）提取数据：我们就可以在拿到的数据中，挑选出对我们有用的数据；（3）存储数据：将挑选出来的有用数据保存在某一文件/...
关于python 爬虫项目多线程的问题！ python 有问必答爬虫
2022-04-09 22:19

回答 2 已采纳用pypy,namba（需重构，加装饰器）,cython（需重构，显式声明类型）用正则表达式更快，但适用性会降低灵活运用异步减少中间值的使用少用for循环控制线程数量，考虑协程、多进程，因为有GIL的
java爬虫获取网站图片
2023-12-31 23:34

阿柒爱吃鱼的博客因为刚好需要一些图片素材，然后就去网站上下载，但是一张一张的太慢了，一想...大体流程就是：通过网站url获取到页面源码，然后找到img标签获取图片路径，最后通过流操作拷贝到本地文件夹中。关于爬虫的一些使用。
Python爬虫库BeautifulSoup获取对象(标签)名,属性,内容,注释
2020-02-19 21:59

python进步学习者的博客如何利用Python爬虫库BeautifulSoup获取对象(标签)名,属性,内容,注释等操作下面就为大家介绍一下一、Tag(标签)对象 1.Tag对象与XML或HTML原生文档中的tag相同。 from bs4 import BeautifulSoup soup = ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月5日

悬赏问题

¥15 R语言Rstudio突然无法启动
¥15 关于#matlab#的问题：提取2个图像的变量作为另外一个图像像元的移动量，计算新的位置创建新的图像并提取第二个图像的变量到新的图像
¥15 改算法，照着压缩包里边，参考其他代码封装的格式写到main函数里
¥15 用windows做服务的同志有吗
¥60 求一个简单的网页(标签-安全|关键词-上传)
¥35 lstm时间序列共享单车预测，loss值优化，参数优化算法
¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值

爬虫关于获取标签内容的问题

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新