爬取表格中指定单元格的信息

问题遇到的现象和发生背景

爬取一个网站的表单，从表单中提取文本
url = "http://tjj.hunan.gov.cn/hntj/tjfx/tjgb/rkpc/202105/t20210519_19079329.html"

问题相关代码，请勿粘贴截图

我的解答思路和尝试过的方法

我想要达到的结果

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Hann Yang 全栈领域优质创作者 2022-07-28 12:22
关注
from bs4 import BeautifulSoup as bs from requests import get import re Agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36' url = 'http://tjj.hunan.gov.cn/hntj/tjfx/tjgb/rkpc/202105/t20210519_19079329.html' data = get(url,headers = {'User-Agent':Agent}) data.encoding='utf-8' soup = bs(data.text,'html.parser') table = soup.find('table') message = table.find_all("td") t = [] with open('test20220728.txt','w', encoding='utf-8') as fn: for i,n in enumerate(message[11:]): t.append(re.findall(r'>(.+?)<', str(n))[0].strip()) if i%5==4: x = '<span style="font-size:10.0pt;font-family:宋体">' x = ','.join(t).replace(x,'') print(x, file = fn) t = [] print('处理完成！\n')

长沙市,10047914,8300000,1747914,82.60
株洲市,3902738,2781072,1121666,71.26
湘潭市,2726181,1754969,971212,64.37
衡阳市,6645243,3606453,3038790,54.27
邵阳市,6563520,3423660,3139860,52.16
岳阳市,5051922,3064474,1987448,60.66
常德市,5279102,2968067,2311035,56.22
张家界市,1517027,783520,733507,51.65
益阳市,3851564,1942517,1909047,50.43
郴州市,4667134,2715350,1951784,58.18
永州市,5289824,2483050,2806774,46.94
怀化市,4587594,2164261,2423333,47.18
娄底市,3826996,1796776,2030220,46.95
湘西自治州,2488105,1262007,1226098,50.72
展开全部

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 2
无用
评论打赏
分享
举报编辑记录
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容
梦回元悟 2022-07-28 13:53

开来已经有人回答了哈哈

赞

回复

编辑

预览

轻敲空格完成输入
显示为

卡片

标题

链接

回复

按下Enter换行，Ctrl+Enter发表内容
Nanzhexi& 2022-07-28 18:37

输出啥？，输出t，只返回一个[]空列表，得不到数据

赞

回复

编辑

预览

轻敲空格完成输入
显示为

卡片

标题

链接

回复

按下Enter换行，Ctrl+Enter发表内容
Nanzhexi& 2022-07-28 18:57

。。，好像要把print(x,file=fn)中的file=fn去掉才能得到数据

赞

回复

编辑

预览

轻敲空格完成输入
显示为

卡片

标题

链接

回复

按下Enter换行，Ctrl+Enter发表内容
展开全部6条评论

编辑

预览

报告相同问题？

关注问题

typora的表格怎么合并单元格? css3
2021-09-26 02:49

回答 1 已采纳 typora支持HTML代码实现，故用HTML代码进行合并
vue表格点击单元格修改数据怎么实现 html javascript 前端
2023-02-01 01:39

回答 3 已采纳参考下面的方法，还望采纳：代码如下： <template> <div> <table> <tr v-for="(row, index)
用jqeury获取选中table表格中单元格的内容 c# javascript jquery
2023-02-27 15:17

回答 1 已采纳 $("div.tab-pane.active table input").each(function (i,v) { var Name = $(i).val();
第2关：爬取表格中指定单元格的信息
2022-10-25 01:59

小锐->技术成就梦想,梦想成就辉煌。的博客对于上述获得的表格标签的内容，爬取从第4行开始的文本，显示每行的地区名称、总人口、城镇人口、乡村人口和城镇化率各项之间用空格隔开，包括最后一列后面也有空格每个地区换一行。找到表格的所有tr标签，存入...
如何将图片放入excel指定单元格中 big data python 其他
2021-11-05 02:04

回答 1 已采纳我来结题了,这么久都没有人回答,其实是我自己傻了,拿到了cell对象后都不知道将其填入图片,插入图片要导入openpyxl的Image模块操作如下 from openpyxl.drawing.imag
vue+element ui点击表格行会触发单元格事件 vue.js 前端前端框架
2022-09-09 07:23

回答 2 已采纳 @click.stop阻止事件冒泡
html表格中单元格合并后，上下单元格自动对齐 html5
2021-12-11 04:39

回答 3 已采纳参考:https://blog.csdn.net/weixin_42528956/article/details/102085188望采纳^O^
python批量获取html文件中的表格内容，存储到db文件中
2023-01-28 07:58

在Python编程领域，爬虫是一项常见的任务，用于自动抓取网页信息。本示例中，我们关注的是如何批量从HTML文件中提取表格内容，并将这些数据存储到数据库（如SQLite的.db文件）中。以下是对这个过程的详细阐述： ...
如何使html表格中的不同单元格边框样式不同？ html
2021-11-12 03:14

回答 3 已采纳 https://blog.csdn.net/u014103733/article/details/72896391
poi 跨列合并word中的表格的单元格
2018-03-12 17:50

回答 2 已采纳最后研究发现，该行代码在word2010有用，在wps中无效
请问pythondocx库如何将表格单元格中的文字纵向显示 python 有问必答
2021-12-16 05:32

回答 1 已采纳可以试试单元格字段用换行符分隔。:table.cell(0, 0).text='\n'.join(list('学生成绩')) from docx.enum.table import WD_TABLE_
金融界网站股票信息爬取，输入日期，对金融界页面股票股票进行爬取并存储进数据库
2023-02-21 06:38

在本项目中，我们主要关注的是如何利用Python编程语言从金融界网站(http://stock.jrj.com.cn/tzzs/zdtwdj/zdforce.shtml)抓取股票信息，并将其存储到数据库中。这个过程通常涉及网络请求、网页解析以及数据库操作等...
爬虫爬取动态加载页面表格源代码（已测试过）.zip
2020-06-12 02:16

在这个压缩包中，包含了三个源代码示例，分别适用于爬取不同类型动态加载的表格数据，如股票信息、学校参赛名单和成绩排名。每个示例可能使用不同的技术和策略来处理特定页面的动态加载。例如，可能使用了Python的`...
Python程序设计网页爬虫
2024-06-05 06:36

Programming Scholar☉的博客 Python程序设计实验十三网页爬虫头歌、第1关：爬取网页的表格信息、第2关：爬取表格中指定单元格的信息、第3关：将单元格的信息保存到列表并排序、第4关：爬取 div 标签的信息、第5关：爬取单页多个div标签的信息、...
Python不香吗？为什么你还在用Excel做数据分析！！！
2020-12-21 16:02

在代码示例中，`excel_read`函数用于读取指定单元格的值，`concat_obj`和`merge_unit`则分别用于设置单元格的值和合并单元格。 4. **Python爬虫**： Python的网络爬虫功能强大，可以高效抓取网页数据，如使用...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月28日

爬取表格中指定单元格的信息

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

我的解答思路和尝试过的方法

我想要达到的结果

1条回答 默认 最新

问题事件

1条回答默认最新