爬虫网页使用Beautifulsoup遍历网页时总是没有'children'模块

import requests
import bs4
from bs4 import BeautifulSoup
import re

def getHTMLText(url):
try:
r = requests.get(url, timrout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""

def fillUnivList(ulist, html):
soup = BeautifulSoup(html, "html.parser")
for tr in soup.find('tbody').children:
if isinstance(tr, bs4.element.Tag):
tds = tr('td')
ulist.append([tds[0].string,tds[1].string,tds[2].string])

def printUnivList(ulist, num):
print("{:^10}\t{:^10}\t{:^10}".format("排名","大学名称","总分"))
for i in range(num):
u = ulist[i]
print("{:^10}\t{:^10}\t{:^10}".format(u[0],u[1],u[2]))

def main():
#num = int(raw_input("请输入您要查询的大学数："))
unifo = []
url = "http://www.gaokaopai.com/paihang-otype-2.html?f=1&ly=bd&city=&cate=&batch_type="
html = getHTMLText(url)
fillUnivList(unifo, html)
printUnivList(unifo,10)
main()

错误提示：AttributeError: 'NoneType' object has no attribute 'children'

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
淮左青衣 2017-08-05 13:48
关注
已解决，原来是getHTMLText（)中出错了,连最基本的网页都没有获取到，soup.find('tbody')返回的对象肯定是空的，也就不可能有children属性

解决 3
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫 BeautifulSoup解析网页爬取内容为None python 有问必答
2021-08-31 14:07

回答 2 已采纳你抓的频率太快，IP被墙了
使用爬虫解析网页下载文件失败 python 爬虫
2022-08-15 15:47

回答 2 已采纳可以在循环时候做一次判断：如果解析出的 href 为空，那么手动拼接一个 href = "//download.ccgp.gov.cn/oss/download?uuid=" + id如果不为空，那么
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
【爬虫】2.4 BeautifulSoup遍历文档元素
2023-02-24 22:32

即使再小的船也能远航的博客 BeautifulSoup遍历文档元素上行遍历下行遍历平行遍历
python 爬虫 requests.get() 所有网页都打不开 python 爬虫
2022-09-24 23:49

回答 1 已采纳 http协议都没加
想用pycharm爬虫提取一个网页 pycharm python 爬虫
2021-07-30 00:11

回答 4 已采纳对你有帮助的话，建议采纳。
用爬虫爬取网页，表格第一行内容无法获得 python 爬虫
2021-12-14 09:11

回答 1 已采纳如果是想要获得标题，表头用的是th，不是td。和表格正文内容不是一样的。
python爬虫：BeautifulSoup_遍历文档树
2020-01-16 22:34

不怕猫的耗子A的博客在做自动化时，需要解析XML报文，前面虽然学习过下BeautifulSoup，结果这次在写脚本时，突然发现前面学的还不是很全(当时也没想到会用到这么多，就随便了解了下)，所以现在又得在回顾、补充下 2、在实际写的时候...
Beautifulsoup解析网页获取到的标签属性缺失 python 爬虫
2023-04-23 14:32

回答 1 已采纳 soup = BeautifulSoup(html_doc, 'html.parser', from_encoding='utf-8')
BeautifulSoup 使用select遍历输出的列表有空的，应该怎么删除 python
2019-01-16 09:37

回答 1 已采纳 ←如果以下回答对你有帮助，请点击右边的向上箭头及采纳下答案 ``` for tit in soup.select(".shop_list dl "): title=tit.select(".t
python爬虫爬到的网页内容不完全 python 爬虫网络
2021-10-31 23:19

回答 1 已采纳 beautifulsoup是爬静态网页的，应该是有些内容属于动态，可以尝试selenium
Python爬虫之数据解析——BeautifulSoup亮汤模块（一）：基础与遍历（接上文，2023美赛春季赛帆船数据解析sailboatdata.com）
2023-08-24 07:36

和谐号hexh的博客三、beautifulsoup遍历（对tag操作） 1..contents属性 print(bs.body) print("-"*500) print(type(bs.body.contents)) for item in bs.body.contents: print(item) bs.body是tag对象，我们可以把它转为str，然后按...
python爬虫问题，BeautifulSoup提问，真心求教，急 python
2021-04-26 13:53

回答 1 已采纳首先在使用爬虫前您需要确保爬取的页面数据是全部的即不存在动态加载的情况若有的数据是动态加载的您还需要爬取网页所携带的的json文件
python学习爬虫（5）--BeautifulSoup遍历文档树：.contens, .children, .descendants等
2019-03-28 11:40

IT小样的博客本篇主要介绍对BeautifulSoup的引用，以之前教程中的HTML为例： html_doc = ''' <html><head><title>hello,tester</title></head><body> <p class="title"><b><...
学习笔记：BeautifulSoup的3种遍历方式
2021-12-19 21:23

法迪的博客标签树的下行遍历</h3> <table><thead><tr><th>属性</th><th>说明</th></tr></thead><tbody><tr><td>.contents</td><td>子节点的列表，将所有儿子节点存入列表</td></tr><tr><td>.children</td><td>子节点的迭代...
没有解决我的问题, 去提问

悬赏问题

¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。
¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
¥20 腾讯企业邮箱邮件可以恢复么
¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗？
¥15 错误 LNK2001 无法解析的外部符号
¥50 安装pyaudiokits失败
¥15 计组这些题应该咋做呀
¥60 更换迈创SOL6M4AE卡的时候，驱动要重新装才能使用，怎么解决？
¥15 让node服务器有自动加载文件的功能

爬虫网页使用Beautifulsoup遍历网页时 总是 没有'children'模块

3条回答 默认 最新

悬赏问题

爬虫网页使用Beautifulsoup遍历网页时总是没有'children'模块

3条回答默认最新