weixin_50790233 2022-09-05 23:42 采纳率: 33.3%
浏览 10
已结题

爬虫关于获取标签内容的问题

img

代码

html=html=urlopen('https://www.qidian.com/rank/yuepiao/year2022-month08/')
obj=BeautifulSoup(html,'lxml')
for i in obj.find('ul',{'class':'list_type_detective'}).find_all('a',href=re.compile('^(www)')):
print(i)

问题
这种find().findall()的形式是不行吗,为什么爬取不到a标签

  • 写回答

2条回答 默认 最新

  • 梦里逆天 2022-09-06 00:23
    关注
    
    import re
    from urllib.request import urlopen
    
    from bs4 import BeautifulSoup
    
    html = urlopen('https://www.qidian.com/rank/yuepiao/year2022-month08/')
    # print(html)
    obj = BeautifulSoup(html, 'lxml')
    # print(obj)
    for i in obj.find(attrs={'class': 'list_type_detective'}):  # 提取class为list_type_detective的元素
        print(i)
    print('*'*8)
    for i in obj.select('ul.list_type_detective > li > a'):  # 提取class为list_type_detective的ul里的li中的a标签
        print(i['href'])
    print('-'*8)
    for i in obj.find_all('a', href=re.compile('^//www')):  # 提取以”//www"开头的a标签
        print(i)
    

    可参考:https://baijiahao.baidu.com/s?id=1703234898700447231&wfr=spider&for=pc

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 9月14日
  • 已采纳回答 9月6日
  • 创建了问题 9月5日

悬赏问题

  • ¥15 R语言Rstudio突然无法启动
  • ¥15 关于#matlab#的问题:提取2个图像的变量作为另外一个图像像元的移动量,计算新的位置创建新的图像并提取第二个图像的变量到新的图像
  • ¥15 改算法,照着压缩包里边,参考其他代码封装的格式 写到main函数里
  • ¥15 用windows做服务的同志有吗
  • ¥60 求一个简单的网页(标签-安全|关键词-上传)
  • ¥35 lstm时间序列共享单车预测,loss值优化,参数优化算法
  • ¥15 Python中的request,如何使用ssr节点,通过代理requests网页。本人在泰国,需要用大陆ip才能玩网页游戏,合法合规。
  • ¥100 为什么这个恒流源电路不能恒流?
  • ¥15 有偿求跨组件数据流路径图
  • ¥15 写一个方法checkPerson,入参实体类Person,出参布尔值