qq_52974082 2021-12-14 14:42 采纳率: 50%
浏览 28
已结题

爬虫,求友友指点迷津

img

img

  • 写回答

2条回答 默认 最新

  • Syb呀呀 2021-12-16 17:01
    关注

    看了一下你问了几个没人解答,刚好刷到,帮你写一下,仅供参考。

    
    import datetime
    import time
    from lxml import etree
    import requests
    import logging
    
    BASE_URL='https://www.igo.cn/zt/University_Rankings/'
    def scrape_url(url):
        headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}
        print(datetime.date.today(),time.strftime("%H:%M:%S"),'正在爬取网站为:{} ...'.format(url))
        try:
            response=requests.get(url,headers=headers)
            response.encoding='gb2312'
            if response.status_code==200:
                return response.text
        except requests.RequestException:
            logging.error('error occurred while scraping %s',url,exc_info=True)
    
    def parser_html():
        html=scrape_url(BASE_URL)
        dom=etree.HTML(html)
        xp=dom.xpath('//tr/td[1]/text()')
        xp_1=dom.xpath('//tr/td[2]/text()')
        xp_2=dom.xpath('//tr/td[3]/text()')
        xp_3=dom.xpath('//tr/td[4]/text()')
        xp_4=dom.xpath('//tr/td[5]/text()')
        for i in range(0,201):
            print('排名:'+str(xp[i].replace('/td>',''))+'\t',
                  '中文名:'+xp_1[i]+'\t',
                  '英文名:'+xp_2[i]+'\t',
                  '国家/地区:'+xp_3[i]+'\t',
                  '得分:'+str(xp_4[i]))
    
    if __name__ == '__main__':
        parser_html()
      
    
    

    上面代码是获取排行榜的数据,其中数据都打印出来了,你可自行运行一下参考,csv一块比较简单,可以搜搜csdn文件,把对应数据写进去就好了,如有帮助,给个采纳 蟹蟹~

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 12月27日
  • 已采纳回答 12月19日
  • 创建了问题 12月14日

悬赏问题

  • ¥15 matlab 用yalmip搭建模型,cplex求解,线性化处理的方法
  • ¥15 qt6.6.3 基于百度云的语音识别 不会改
  • ¥15 关于#目标检测#的问题:大概就是类似后台自动检测某下架商品的库存,在他监测到该商品上架并且可以购买的瞬间点击立即购买下单
  • ¥15 神经网络怎么把隐含层变量融合到损失函数中?
  • ¥15 lingo18勾选global solver求解使用的算法
  • ¥15 全部备份安卓app数据包括密码,可以复制到另一手机上运行
  • ¥20 测距传感器数据手册i2c
  • ¥15 RPA正常跑,cmd输入cookies跑不出来
  • ¥15 求帮我调试一下freefem代码
  • ¥15 matlab代码解决,怎么运行