python爬虫问题出错原因求助

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""

def fillUnivList(ulist, html):
soup = BeautifulSoup(html, "html.parser")
for tr in soup.find('tbody').children:
if isinstance(tr, bs4.element.Tag):
tds = tr('td')
ulist.append([tds[0].string, tds[1].string, tds[3].string])

def printUnivList(ulist, num):
print("{:^10}\t{:^6}\t{:^10}".format("排名","学校名称","总分"))
for i in range(num):
u=ulist[i]
print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))

def main():
uinfo = []
url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html'
html = getHTMLText(url)
fillUnivList(uinfo, html)
printUnivList(uinfo, 20) # 20 univs
main()

出错为：Traceback (most recent call last):
File "D:/python02/01/11.py", line 34, in
main()
File "D:/python02/01/11.py", line 33, in main
printUnivList(uinfo, 20) # 20 univs
File "D:/python02/01/11.py", line 26, in printUnivList
print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))
TypeError: unsupported format string passed to NoneType.__format__
第一次爬虫，不是很能理解出错原因。求指教

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
T_world 2017-08-15 00:20
关注
python的爬虫经常会爬取到none这种节点，当你获取的节点是none，还要继续对它进行操作的时候就会报错，这种问题只能是小心翼翼地判断每个读到的节点是什么类型，建议你对照要爬的页面的结构并且在代码中打印获取到的节点类型以及内容等，结合起来判断会比较有帮助

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

python爬虫问题出错原因求助 python
2017-08-14 13:17

回答 4 已采纳 python的爬虫经常会爬取到none这种节点，当你获取的节点是none，还要继续对它进行操作的时候就会报错，这种问题只能是小心翼翼地判断每个读到的节点是什么类型，建议你对照要爬的页面的结构并且在代码
python爬虫问题 python 爬虫
2022-10-09 11:41

回答 2 已采纳
python爬虫位置问题 python 爬虫
2023-03-08 13:31

回答 2 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ如果您想要提取 div class="detail-context"标签下所有的 tr 标签，并进一步提取每个 tr 中的 td 标签内的内容，可以使用以下代码： impo
Python爬虫程序出错，求助
2021-03-16 19:00

u010942796的博客初学Python爬虫，运行出错程序如下： import requests from lxml import etree headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239....
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python 爬虫 selenium 驱动安装出错 python selenium 爬虫
2022-02-11 20:26

回答 4 已采纳如果楼上的不行再试试我的 if __name__ == '__main__': # 输入 Driver 的绝对路径 driver_path = 'C:\edgedriver_win6
python爬虫selenium点击按钮 python selenium 爬虫
2022-10-21 12:35

回答 2 已采纳可以看下xpath语法，还有个插件（xPath Finder）在firefox浏览器里可以一键定位到元素并复制xpath路径，如果插件给出的xpath路径定位不到，可以尝试自己写相对路径
这是一个python爬虫求助帖
2020-04-23 16:13

yd_的博客我正在学中国mook嵩天老师的python爬虫课程，目前进行到爬取淘宝商品信息实例编写，然后在这里卡了两天…下面是我按照老师视频和另一篇博客写出来的代码： `import re import requests def getHTMLTe...
python爬虫乱码问题怎么解决 python
2022-04-20 16:13

回答 2 已采纳 with open ("mybaidu.html", mode = "w", encoding = "utf-8")这里面填一个encoding就好了
python 爬虫爬取图片问题 python 有问必答爬虫
2022-06-06 20:12

回答 4 已采纳你题目的解答代码如下： #coding=gbk import requests from io import BytesIO from PIL import Image from selenium
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
已解决vscode配置原因运行Python读取文件报错
2023-01-04 21:58

袁袁袁袁满的博客已解决（vscode中运行Python读取文件报错）[Errno 2] No such file or directory:“README .md
关于python爬虫的问题 python 爬虫
2022-03-02 15:43

回答 1 已采纳 lis = re.findall(p, html, re.M|re.I|re.S)
Python爬虫实战：爬取官员官方信息
2017-09-26 11:24

LucyGill的博客最近导师给了一个任务：用Python爬取中国官员的官方信息...千里之行始于足下，我就从Python爬虫开始。首先上代码： from urllib import request from bs4 import BeautifulSoup url='http://cpc.people.com.cn/gbzl/
HelloGitHub我感兴趣的python项目
2023-03-12 02:17

风华浪浪的博客它可以提供文本分类、序列标记、情感分析、文本摘等功能，帮助快速完成打标工作，支持中文和多人协作：用 Python 编写 systemd 服务的教程。许多 Linux 发行版都用 systemd 来管理系统的服务，比如开机启动、自动...
没有解决我的问题, 去提问

悬赏问题

¥15 训练的多模态特征融合模型准确度很低怎么办
¥15 kylin启动报错log4j类冲突
¥15 超声波模块测距控制点灯，灯的闪烁很不稳定，经过调试发现测的距离偏大
¥15 import arcpy出现importing _arcgisscripting 找不到相关程序
¥15 onvif+openssl，vs2022编译openssl64
¥15 iOS 自定义输入法-第三方输入法
¥15 很想要一个很好的答案或提示
¥15 扫描项目中发现AndroidOS.Agent、Android/SmsThief.LI!tr
¥15 怀疑手机被监控，请问怎么解决和防止
¥15 Qt下使用tcp获取数据的详细操作

python爬虫问题出错原因求助

4条回答 默认 最新

悬赏问题

4条回答默认最新