爬取网页里表格数据放入列表

爬取网页里表格数据，感觉页面有些复杂，实在爬不出来

import time
import requests
from bs4 import BeautifulSoup
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}#爬虫[Requests设置请求头Headers],伪造浏览器
# 核心爬取代码
url= 'https://www.basketball-reference.com/leagues/NBA_2014_games-december.html'
params = {"show_ram":1}
response = requests.get(url,params=params, headers=headers)#访问url
listData=[]#定义数组
soup = BeautifulSoup(response.text, 'html.parser')#获取网页源代码
tr = soup.find('tbody').find_all('tr')
#.find定位到所需数据位置  .find_all查找所有的tr（表格）
# 去除标签栏
for j in tr[1:]:        #tr2[1:]遍历第1列到最后一列，表头为第0列
    td = j.find_all('th')#td表格
    Date = td[0].get_text().strip()           
 #   Start(ET) = td[1].get_text().strip()  
#     Visitor/Neutral = td[2].get_text().strip()            
#     Visitor Points = td[3].get_text().strip()       
#     Home/Neutral = td[4].get_text().strip()                    
#     Home Points = td[5].get_text().strip()                   
#     &nbsp=td[6].get_text().strip() 
#     &nbspp=td[7].get_text().strip() 
#     Attend.=td[8].get_text().strip() 
#     Arena=td[9].get_text().strip() 
#     Notes=td[10].get_text().strip()
 

#     listData.append([Date,Start(ET),Visitor/Neutral,Visitor Points,Home/Neutral,Home Points,&nbsp,&nbspp,Attend.,Arena,Notes])
# print (listData)#打印
listData.append([Date])
print (listData)#

https://www.basketball-reference.com/leagues/NBA_2014_games-december.html

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

6条回答默认最新

PhoenixRiser 2023-06-26 14:43

关注

TechWhizKid参考GPT回答：

会爬取指定的网页，解析表格数据，并将结果打印出来。它将会获取比赛的日期和时间，访问队伍和它们的得分，主场队伍和它们的得分，比赛成绩链接的URL，加时赛，观众数量，以及比赛地点


import time
import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}#爬虫[Requests设置请求头Headers],伪造浏览器

url= 'https://www.basketball-reference.com/leagues/NBA_2014_games-december.html'
params = {"show_ram":1}
response = requests.get(url, params=params, headers=headers) #访问url

listData = [] #定义数组
soup = BeautifulSoup(response.text, 'html.parser') #获取网页源代码

tr = soup.find('tbody').find_all('tr') #.find定位到所需数据位置  .find_all查找所有的tr（表格）

for j in tr:
    th = j.find_all('th')  # 查找所有的th（表头）
    td = j.find_all('td')  # 查找所有的td（表格数据）
    
    if th and td:  # 确保每行都有数据
        Date = th[0].get_text().strip()  # 日期和时间
        Visitor_Team = td[0].get_text().strip()  # 访问队伍
        Visitor_Points = td[1].get_text().strip()  # 访问队伍的得分
        Home_Team = td[2].get_text().strip()  # 主场队伍
        Home_Points = td[3].get_text().strip()  # 主场队伍的得分
        Box_Score = 'https://www.basketball-reference.com' + td[4].a['href'] if td[4].a is not None else ''  # 比赛成绩链接URL
        Overtime = td[5].get_text().strip()  # 加时赛
        Attend = td[6].get_text().strip()  # 观众数量
        Arena = td[7].get_text().strip()  # 比赛地点

        listData.append([Date, Visitor_Team, Visitor_Points, Home_Team, Home_Points, Box_Score, Overtime, Attend, Arena])

# 输出结果
for data in listData:
    print(data)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(5条)

报告相同问题？

关注问题

超强干货之---Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，...在大规模数据爬取时，选择合适的存储方式取决于数据的规模、结构和访问需求。
python怎么爬取网页数据,python爬取网页数据步骤
2024-06-23 14:47

2401_85881957的博客大家好，给大家分享一下python爬取网页数据表格会超出索引，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！。
Python 爬取网页水务数据并实现智慧水务前端可视化
2024-08-09 11:08

@正在学习驰骋的小马的博客本文将爬取的公开数据作为数据样例进行数据分析与可视化。
python爬取数据并存到excel,python爬取数据的意义
2024-06-22 19:07

2401_85887359的博客由于互联网数据的多样性和资源的有限性，如今根据用户需求定向抓取相关网页并分析已经成为了主流的爬取策略。能做什么我们可以爬取自己想看的视频、各种图片，只要是能够通过浏览器访问的数据都可以用它进行爬取。
Python 实战：爬虫抓取网站数据处理后存入Excel表
2020-12-30 15:57

pwy1198156945的博客 Python是我接触过的，相比C++、java，是一门非常简单的编程语言。对于办公室白领，在未来是一门必须掌握的技巧，可以帮你自动化处理数据。废话少说，上干货! 本期主要给大家分享一个我工作中的一次使用，希望对你...
【python】爬取天气网数据+可视化【附源码】
2024-07-05 08:36

Yan-英杰的博客爬取天气网数据+可视化
python如何爬取网页数据,python爬取网页数据步骤
2024-04-06 05:58

zjl102562的博客它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码...
第一个 Python 爬虫实战：爬取静态网页文本内容
2025-10-29 23:24

python 爬虫工程师的博客本文介绍了使用Python进行静态网页爬取的基础技术，重点讲解了requests和BeautifulSoup两个核心库的使用方法。文章以豆瓣读书Top250为例，详细展示了发送GET请求、解析HTML结构、提取关键信息（标题、链接、图片地址...
Selenium学习四——利用Python爬取网页多个页面的表格数据并存到已有的excel中
2017-09-26 12:04

晓晓星辰的博客利用Python爬取网页多个页面的表格数据并存到已有的excel中 1、具体要求获取牛客网->题库->在线编程->剑指Offer网页，获取表格中的全部题目，保存到本地excel中 2、技术要求利用Selenium+...
写一个python爬虫程序，可以从网站上抓取数据并保存到excel文件中
2023-02-13 00:07

Clown爱电脑的博客首先使用requests库发送请求获取网页数据，然后使用pandas将数据保存到excel文件中。下面是一个简单的示例代码： import requests import pandas as pd # 发送请求获取网页数据 url = "http://www.example.com" ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月26日

爬取网页里表格数据放入列表

6条回答 默认 最新

TechWhizKid参考GPT回答：

问题事件

6条回答默认最新