liusu5288 2021-12-20 22:44 采纳率: 100%
浏览 15
已结题

python用requests和bs4库写爬虫,如下问题该如何解决

img


我想将图片中蓝底这几行中的“美国”找出来,代码该如何写。我的代码如下所示,但是执行后返回的是None

img

  • 写回答

1条回答 默认 最新

  • Syb呀呀 2021-12-21 10:02
    关注

    bs解析起来不方便,而且元素容易找错,建议用xpath配合re使用。

    代码仅供参考:

    
    import requests
    import re
    from lxml import etree
    
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}
    url='https://shanghairanking.cn/rankings/arwu/2021'
    
    res=requests.get(url,headers=headers)
    res.encoding=res.apparent_encoding
    
    dom=etree.HTML(res.text)
    
    school_name=re.findall('<img alt="(.*?)"',res.text)
    school_local=dom.xpath("//tbody/tr/td[3]/text()")
    school_rank=dom.xpath('//tbody/tr/td[4]/text()')
    
    for i in range(len(school_name)):
        print(
            '学校名称:',school_name[i],
            '国家/地区:',school_local[i].strip().replace('\n',''),
            '国家/地区排名',school_rank[i].strip().replace('\n','')
        )
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 12月29日
  • 已采纳回答 12月21日
  • 创建了问题 12月20日

悬赏问题

  • ¥100 set_link_state
  • ¥15 虚幻5 UE美术毛发渲染
  • ¥15 CVRP 图论 物流运输优化
  • ¥15 Tableau online 嵌入ppt失败
  • ¥100 支付宝网页转账系统不识别账号
  • ¥15 基于单片机的靶位控制系统
  • ¥15 真我手机蓝牙传输进度消息被关闭了,怎么打开?(关键词-消息通知)
  • ¥15 装 pytorch 的时候出了好多问题,遇到这种情况怎么处理?
  • ¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
  • ¥15 手机接入宽带网线,如何释放宽带全部速度