用爬虫爬取网页，表格第一行内容无法获得

用爬虫爬取网页，表格第一行内容无法获得，直接跳过了标题

import csv
import os
import requests
from bs4 import BeautifulSoup
allUniv = []
csvUniv = []
ranking = 11

def getHTMLText(url):
     try:
         r = requests.get(url, timeout=30)
         r.raise_for_status()
         r.encoding = 'gb2312'
         return r.text
     except:
         return ""     
def fillUnivList(soup):
     data = soup.find_all('tr')
     for tr in data:
         ltd = tr.find_all('td')
         if len(ltd)==0:
             continue
         singleUniv = []
         for td in ltd:
             singleUniv.append(td.string)
         csvUniv.append(td.string)
         allUniv.append(singleUniv)   
         
def writercsv(book,num,table):
     if os.path.isfile(book):
         with open(book,'a',newline='',encoding='utf-8')as f:
             csv_write=csv.writer(f,dialect='excel')
             for i in range(num):
                 u=allUniv[i]
                 csv_write.writerow(u)
     else:
          with open(book,'w',newline='')as f:
             csv_write=csv.writer(f,dialect='excel')

             for i in range(num):
                 u=csvUniv[i]
                 csv_write.writerow(u)  
                 
def printUnivList(num):
    
    for i in range(num):
        u=allUniv[i]
        print("{1:^5}\t{2:{0}^11}\t{3:^50}\t{4:^8}\t{5:^7}\t".format(chr(12288),u[0],u[1],u[2],u[3],u[4]))
        
table=["排名","学校中文名称","学校英文名称","国家/地区""得分"]
book="2034.csv"
def main():
     url = 'https://www.igo.cn/zt/University_Rankings/?utm_source=source-baidu&tm_medium=xtjy22&utm_term=JS-TY-%E6%8E%92%E5%90%8D&utm_content=QS&tm_campaign=2021%E5%B9%B4%E5%BA%A6QS%E4%B8%96%E7%95%8C%E5%A4%A7%E5%AD%A6%E6%8E%92%E5%90%8D&bd_vid=7602746426293878947'
     html = getHTMLText(url)
     soup = BeautifulSoup(html, "html.parser")
     fillUnivList(soup)
     printUnivList(ranking)
     writercsv(book,ranking,table)
     
main()

这是网页内容：

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
菜猫小六 2021-12-14 10:03
关注
如果是想要获得标题，表头用的是th，不是td。和表格正文内容不是一样的。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫爬取网页表格数据
2020-09-20 17:53

在本例中，我们将重点讨论如何使用Python爬虫来抓取网页中的表格数据。Python提供了多个库来辅助这一过程，如BeautifulSoup和requests，这两个库在上述代码中被广泛使用。首先，`requests`库用于发送HTTP请求并...
python 爬虫表格,python爬虫爬取网页表格数据
2021-04-26 20:10

养兔子的大叔的博客用python爬取网页表格数据，供大家参考，具体内容如下from bs4 import BeautifulSoupimport requestsimport csvimport bs4#检查url地址def check_link(url):try:r = requests.get(url)r.raise_for_status()r....
Python基于pandas爬取网页表格数据
2020-12-17 13:56

在Python的编程环境中，pandas库是一个非常强大的数据分析工具，同时也提供了一种便捷的方式来爬取网页中的表格数据。本文将详细介绍如何使用pandas的`read_html`函数来抓取网页表格，以及一些相关的参数和使用技巧...
pandas借助python爬虫爬取网页html表格保存到excel文件
2025-03-13 09:22

听海边涛声的博客 pandas借助python爬虫爬取网页html表格保存到excel文件
Python爬虫入门教程！手把手教会你爬取网页数据_python爬取网页数据
2024-04-27 16:14

rr8f2haQf的博客同时还可以知道，这个 start 参数应该是起到了类似于 page 的作用，start = 30 是第二页，start = 60 是第三页，依次类推，最后一页是 start = 420。当然，XPath 非常强大，但是语法也相对复杂，不过我们可以通过 ...
python爬取表格跳过第一行_python怎么爬取表格？
2020-12-13 08:01

weixin_39887715的博客 Python爬取表格的步骤：1、检查url地址，用raise_for_status()检查url地址；2、爬取资源，用BeautifulSoup()爬取数据，并且用find_all('tr')抓取其中的表格；3、保存资源，用write()将表格保存到指定目录。frombs4...
第一个 Python 爬虫实战：爬取静态网页文本内容
2025-10-29 23:24

python 爬虫工程师的博客本文介绍了使用Python进行静态网页爬取的基础技术，重点讲解了requests和BeautifulSoup两个核心库的使用方法。文章以豆瓣读书Top250为例，详细展示了发送GET请求、解析HTML结构、提取关键信息（标题、链接、图片地址...
Python爬虫：捕获网页表格数据的终极指南
2024-08-18 22:49

2401_85761003的博客 Python作为一种强大的编程语言，通过其丰富的库和框架，可以高效地抓取和处理网页中的表格数据。通过本文的学习，读者应能掌握使用Python抓取网页表格数据的基本方法，并能根据实际需求进行拓展和优化。在使用Python...
python小项目——【爬虫爬取网页中的内容及链接】
2024-11-18 18:33

Heris99的博客 python爬虫爬取网页内容小项目
beautifulsoup爬取网页中的表格_用 Python 爬取网页
2020-11-20 00:10

weixin_39756273的博客来自公众号：优达学城Udacity作者：Kerry Parker编译：欧剃作为数据科学家的第一个任务，就是做网页爬取。那时候，我对使用代码从网站上获取数据这项技术完全一无所知，它偏偏又是最有逻辑性并且最容易获得的数据...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 12月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月14日

用爬虫爬取网页，表格第一行内容无法获得

1条回答 默认 最新

问题事件

1条回答默认最新