Python爬取中国前30名大学

最近在学习爬虫，学习任务中有一个爬取中国前30名的大学，按着教程来爬一直有bug，网上的代码没找到一个能用的。

import requests
import re
import bs4
from bs4 import BeautifulSoup

def getHTMLText(url):
    try:
        r = requests.get(url,timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print("getHTMLText失败！")
        return ""

def fillUnivList(ulist,html):
    soup = BeautifulSoup(html,"html.parser")
    for tr in soup.find("tbody").children:
        if isinstance(tr,bs4.element.Tag):      #过滤非标签信息
            tds = tr("td")      #查询td标签
            tagas = tr("a")     #查询a标签
            ulist.append([tds[0].string.strip(),tagas[0].string.strip(),tds[2].string.strip(),tds[3].string.strip(),tds[4].string.strip()])
    pass

def printUnivList(ulist,num):
    a = "{0:^10}{1:{5}^10}{2:^10}{3:^10}{4:^10}"
    print(a.format("排名","学校","地域","类型","总分",chr(12288)))
    for i in range(num):
        u = ulist[i]
        print(a.format(u[0],u[1],u[2],u[3],u[4],chr(12288)))

def save(path,ulist):
    Excel = open(path,'w',encoding = 'gbk')
    Excel.write('排名\t学校\t地域\t类型\t总分\n')
    for i in range(len(ulist)):
        for j in range(len(ulist[i])):
            Excel.write(str(ulist[i][j]))
            Excel.write('\t')      #相当于Tab一下，换下一个单元格
        Excel.write('\n')          #写完一行，换行
    Excel.close()

def main():
    uinfo = []
    url = "http://www.shanghairanking.cn/rankings/bcur/2020.html"
    html = getHTMLText(url)
    print("get成功")
    fillUnivList(uinfo,html)
    print("fill成功")
    printUnivList(uinfo,20)     #20univs
    print("print成功")
    save("大学排名.xls",uinfo)
    print("save成功")

main()

一直会提示以下问题，尝试多种方式没有一种能解决的。求教大神们给讲解下

Traceback (most recent call last):
  File "/Volumes/Others/编程/bs4/Best University-210422.py", line 54, in <module>
    main()
  File "/Volumes/Others/编程/bs4/Best University-210422.py", line 47, in main
    fillUnivList(uinfo,html)
  File "/Volumes/Others/编程/bs4/Best University-210422.py", line 18, in fillUnivList
    for tr in soup.find("tbody").children:
AttributeError: 'NoneType' object has no attribute 'children'

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Nick Peng 2021-04-22 22:15
关注
这个排名名次的数据是动态获取的，用这个链接：https://www.shanghairanking.cn/api/pub/v1/bcur?bcur_type=11&year=2020

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python 爬虫入门——获取页面代码
2020-06-14 15:50

梦醒君04的博客因为urllib是python自带的库，而包含urllib用法的requests库其实还挺好用的(各有各的好，这里先不比较）。这里看看爬虫requests库的使用。 import requests # url返回百度 response = requests.get(...
基于python爬虫技术的旅游景点信息采集系统的设计与实现(Django框架)_有关旅游爬虫的论文
2024-05-06 22:15

2401_84537826的博客学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！
第一Python第一个爬虫项目
2020-07-27 11:59

@cheung的博客 C:\Users\Lenovo\AppData\Local\Programs\Python\Python38-32\python.exe D:/c++/py1.py <!DOCTYPE HTML> <meta name="google-site-verification" content="ok0wCgT20tBBgo9_zat2iAcim
精心整理|Python爱好者社区历史文章合集（作者篇）--20190925从豆瓣获取
2019-09-25 22:30

小仙女的小跟班_fairy的博客精心整理|Python爱好者社区历史文章合集（作者篇）参考文件地址：... 若侵权，联系删除 7月16日更新： ... Python爬取起点中文网小说排行榜信息（上海线下培训作业）唯一小编王大...
隐藏自己是爬虫装作客户爬取豆瓣网
2020-05-15 17:02

蜡黄小菊花的博客 8")) 3：运行得出结果 E:\pythoncode\code\douban\venv\Scripts\python.exe E:/pythoncode/code/douban/venv/test/testUrllib.py <!DOCTYPE ...
【完结】囚生CYの备忘录（20221121-20230123）
2022-11-22 11:14

囚生CY的博客 split函数原型： torch.split(tensor, split_size_or_sections, dim=0) tensorflow.split(value, num_or_size_splits, axis=0, num=None, name='split') 我一直想吐槽这个事情，axis和dim明明是一个意思，但是torch...
你们怎么都有自己的聊天机器人？给我也来一个！
2021-05-14 00:17

飞桨PaddlePaddle的博客接着建立吐槽对象的形象并提取人脸五官进行二值化，seamlessclone到各种表情包上；然后结合人脸特征点并配合吐槽大会的语录文本，生成伴有字幕的个性化动态表情包。此外，通过像素或纹理的控制，AnimeGan可生成高...
51c大模型~合集170
2025-08-18 20:13

whaosoft-143的博客从巨头的算力竞赛到中国初创企业的端侧破局，一场关于「空间智商」的全球竞速已悄然开幕，让我们一探究竟 —— 今年 CES 2026 展馆，xx智能（Embodied AI）仍旧是各大厂商的展示重点，但在这背后一种冷静的共识...
51c大模型~合集146
2025-06-30 00:56

whaosoft-143的博客研究表明，与以往需要针对特定任务进行大量数据微调的模型不同，GPT-3 无需更新权重，仅通过在输入时提供任务描述和少量示例（即「少样本学习」或「上下文学习」），就能在翻译、问答、文本生成乃至代码编写等大量...
51c大模型~合集161
2025-07-29 18:31

whaosoft-143的博客当我们使用方便快捷的卫星网络服务时，就在网络的另一边，一个名叫 “风云太空” 的系统，却平静无声地向这些为我们提供服务的卫星发送了预警信息，一场因太阳爆发活动所带来的冲击即将在大约 24 小时后到达.........
没有解决我的问题, 去提问

Python爬取中国前30名大学

1条回答 默认 最新

1条回答默认最新