Python 网页爬虫遇到赋值为空超出范围

代码如下： #e23.1CrawUnivRanking.py import requests from bs4 import BeautifulSoup allUniv = [] def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = 'utf-8' return r.text except: return "" def fillUnivList(soup): data = soup.find_all('tr') for tr in data: ltd = tr.find_all('td') if len(ltd)==0: continue singleUniv = [] for td in ltd: singleUniv.append(td.string) allUniv.append(singleUniv) def printUnivList(num): print("{:^4}{:^10}{:^5}{:^8}{:^10}".format("排名","学校名称","省市","总分","培养规模")) for i in range(num): u=allUniv[i] print("{:^4}{:^10}{:^5}{:^8}{:^10}".format(u[0],u[1],u[2],u[3],u[6])) def main(): url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html' html = getHTMLText(url) soup = BeautifulSoup(html, "html.parser") fillUnivList(soup) printUnivList(10) main() 运行出现：list index out of range怎么解决？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

11条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
爱分享的胖头鱼 2020-12-02 22:17
关注
原因：应该你的URL的有问题，取下来的数据里面没有想要的数据，从而导致allUniv没有数据，打印的时候自然会报错

检查方法：

url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
html = getHTMLText(url)
soup = BeautifulSoup(html, "html.parser")
print(soup) #在这里打印出获取到的html（没有对应的tr，td信息）
fillUnivList(soup)
print(len(allUniv)) #在这里打印出来allUniv数组的长度（我这边打印出来是0）
#printUnivList(10)

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫request后返回值为空 chrome python 有问必答爬虫
2022-01-27 16:25

回答 2 已采纳接口需要post请求并发送数据，题主get请求没用改下面就可以了，注意不能采集太快，有防火墙会拦截。。-_-||。。。 import requests import time headers =
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python爬虫返回的html文件打开网页是空的 python
2022-06-15 23:07

回答 1 已采纳很正常，一个网页能运行，不但需要html文件，还需要css和js文件在背后支撑。（前端和后端）你只是爬下来了一个html文件，自然什么都不会展示出来。你仔细想想，如果这么轻易的就能被你爬到百度的htm
python 爬虫输出为空,python爬取文件时，内容为空
2021-04-26 20:10

weixin_39631572的博客还有关于python进行一段时间便出现'NoneType' object has no attribute 'find' 这是空类型的问题，即用isinstance()函数将空类型过滤掉。例子：源代码如下： max_no = soup_item.find('div', class_='pagenavi')...
python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
Python爬虫 xpath 列表为空 python 有问必答爬虫
2022-03-08 08:32

回答 2 已采纳第二个li的div下少了结束标签导致etree解析出错了少了div结束标签后，etree将建筑类别后的几点全部归类到第二li下了，改下面这样就可以了 import requests from lxm
python爬虫xpath解析返回为空有什么解决方法吗 python 爬虫
2021-12-10 11:12

回答 1 已采纳为空的地方xpath主要是为了拿到什么数据，贴一下网页和要拿到的数据，帮你写一下xpath。上面图上的xpath那么长那么绝对路径，大概率拿不到数据的。
【python网络爬虫】python获取聚美优品化妆品价格数据
2023-10-31 16:25

python获取聚美优品化妆品价格数据 # 使用import导入requests模块 import requests # 从bs4中导入BeautifulSoup模块 from bs4 import BeautifulSoup # 将网址赋值给变量url url = ...
python爬虫遇到标签不全的网页 python
2022-07-23 10:52

回答 3 已采纳我知道问题的原因了,不是代码的问题,而是整个网站有url访问限制,谢谢各位了
关于使用python实现的网页爬虫程序卡死的问题 python 有问必答爬虫
2021-08-07 13:04

回答 3 已采纳你可以用time模块进行计时，每过10分钟先用os.system()重新打开程序，然后调用sys.exit()关闭旧进程如果有用，希望采纳哦~
一个python requests 爬虫遇到乱码的问题 python 爬虫
2022-01-24 15:24

回答 2 已采纳 jsonData='{"\u6d4b\u8bd5": 12345, "\u5185\u5bb9": ["\u6211\u4e5f\u4e0d\u77e5\u9053\u6211\u8981\u5199
【python网络爬虫】-构建免费代理池
2023-11-07 15:30

【python网络爬虫】-构建免费代理池 # 导入requests模块 import requests # 从bs4中导入BeautifulSoup模块 from bs4 import BeautifulSoup # 定义获取代理地址的方法 def get_proxy(pages, ua): # 定义proxy_ips...
Python爬虫 BeautifulSoup解析网页爬取内容为None python 有问必答
2021-08-31 14:07

回答 2 已采纳你抓的频率太快，IP被墙了
【python网络爬虫】-python获取实习僧网站薪资数据
2023-11-14 15:44

【python网络爬虫】-python获取实习僧网站薪资数据 # 导入requests模块 import requests # 从bs4中导入BeautifulSoup模块 from bs4 import BeautifulSoup # 导入time模块 import time # 将User-Agent以字典键对...
【python网络爬虫】-制作词云图
2023-11-01 14:36

【python网络爬虫】-制作词云图 # 使用import导入requests模块 import requests # 从bs4中导入BeautifulSoup from bs4 import BeautifulSoup # 使用import导入jieba模块 import jieba # 从pyecharts.charts中导入...
没有解决我的问题, 去提问

悬赏问题

¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？

Python 网页爬虫遇到赋值为空 超出范围

11条回答 默认 最新

悬赏问题

Python 网页爬虫遇到赋值为空超出范围

11条回答默认最新