网页表中的关键字都相似，python如何进行数据清洗，且不错位

......<td align="center"><div align="center">高良涧</div></td> <td align="center"><div align="center">50916400</div></td> <td align="center"><div align="center">2021-08-20 15:55:00</div></td> <td colspan="2" align="center"><div align="center">12.95</div></td> <td align="center"><div align="center"></div></td> <td align="center"><div align="center">六垛南闸</div></td> <td align="center"><div align="center">51002250</div></td> <td align="center"><div align="center">2021-08-20 15:55:00</div></td> <td align="center"><div align="center">2.70</div></td> <td align="center"><div align="center">2.20</div></td> <td align="center"><div align="center"></div></td> <td align="center"><div align="center">运西电站</div></td> <td align="center"><div align="center">51002102</div></td> <div align="center">2021-08-20 15:55:00</div></td> <td colspan="2"><div align="center">7.12</div></td> </tr> <td height="13"><div align="center"></div></td> <td align="center"><div align="center">高良涧闸（闸上游）</div></td>....
爬取网页表格数据，如加粗部分，数据需要对应起来，最好如此高良涧-50916400-20210820 15：55：00-12.95，数据清洗后能对应起来，第一次提问，可能描述不清。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

CSDN专家-HGJ 2021-08-20 17:23

关注

使用bs4对网页内容解析，用panda写成数据框，存入excel中，数据相对工整。
当数据比较多时，最好用pd.read_html()获取表格数据。

import bs4
import pandas 
t='''
<td align="center"><div align="center">高良涧</div></td> <td align="center"><div align="center">50916400</div></td> <td align="center"><div align="center">2021-08-20 15:55:00</div></td> <td colspan="2" align="center"><div align="center">12.95</div></td> <td align="center"><div align="center"></div></td> <td align="center"><div align="center">六垛南闸</div></td> <td align="center"><div align="center">51002250</div></td> <td align="center"><div align="center">2021-08-20 15:55:00</div></td> <td align="center"><div align="center">2.70</div></td> <td align="center"><div align="center">2.20</div></td> <td align="center"><div align="center"></div></td> <td align="center"><div align="center">运西电站</div></td> <td align="center"><div align="center">51002102</div></td> <div align="center">2021-08-20 15:55:00</div></td> <td colspan="2"><div align="center">7.12</div></td> </tr> <td height="13"><div align="center"></div></td> <td align="center"><div align="center">高良涧闸（闸上游）</div></td>'''
tx=bs4.BeautifulSoup(t,'lxml')
a=[td.text for td in tx.select('td div') if td.text!='']
b=[a[:4],a[4:9],a[9:12],a[12:]]#因数据不规整，通过切片获取每行数据，这是对特定数据进行的处理，通用做法是遍历子节点比如tr进行获取行数据。
df=pd.DataFrame(b)  
print(df) 
df.to_excel('t820.xlsx',index=False,header=None)

0         1                    2      3     4
0        高良涧  50916400  2021-08-20 15:55:00  12.95  None
1       六垛南闸  51002250  2021-08-20 15:55:00   2.70  2.20
2       运西电站  51002102                 7.12   None  None
3  高良涧闸（闸上游）      None                 None   None  None

如有帮助，请点采纳。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

网页表中的关键字都相似，python如何进行数据清洗，且不错位 python 有问必答
2021-08-20 16:14

回答 3 已采纳使用bs4对网页内容解析，用panda写成数据框，存入excel中，数据相对工整。当数据比较多时，最好用pd.read_html()获取表格数据。 import bs4 import pandas
Python提取Excel中特定关键字并进行语调分析 python 机器学习自然语言处理
2023-04-21 21:54

回答 2 已采纳就是按照前两列合并？这个我帮你写了一个 import pandas as pd from openpyxl import Workbook, load_workbook from openpyxl.u
python从txt中提取关键字所在行，并删除重复项后生成新的txt python
2022-05-16 17:32

回答 1 已采纳尝试用了write函数，但是最终txt文件中只有最后一行数据你这里已经很接近了比如说 with open('save.txt','a') as f1: f1.write('你要写入的数据'
python公司面试题集锦 python面试题大全
2019-10-03 21:47

aini4568的博客 4：Python如何定义一个函数函数的定义形式如下： def (arg1, arg2,… argN): < statements> 函数的名字也必须以字母开头，可以包括下划线“ ”,但不能把Python的 关键字定义成函数的名字。函数内的语句数量是任意...
python查找文件中关键字并获取 python
2021-10-08 18:58

回答 2 已采纳用正则表达式吧，匹配字符串的神器！！
python+selenium+xpath如何定位网页table表格中的数据 python selenium 有问必答爬虫
2022-02-25 12:44

回答 2 已采纳使用last()定位最后一个tr节点，再用索引获取。示例： from lxml import etree with open('a.html','r',encoding='utf-8') as f:
python如何在excel表中多重条件筛选单元格数据 python 有问必答
2021-06-25 18:07

回答 2 已采纳这样写： import pandas as pd df=pd.DataFrame({'a':[101,202,303,404,505],'b':['存款','现金','现金存款','银行存款'
python面试大全
2016-12-16 10:01

weixin_33836223的博客注意，尽管如此，你可以在 Python 2 中重载这一行为（比如达到你想在 Python 3 中的同样结果），通过添加以下导入： from __future__ import division 也需要注意的是“双划线”（//）操作符将一直执行整除，而...
Python中的tabulate制表表格对不齐 python
2022-06-25 15:11

回答 1 已采纳这是中英文混用的结果，你把表头改成英文或拼音再试试看
Python pyecharts Map 热力地图数据不显示 python
2022-05-15 17:06

回答 2 已采纳修改代码并直接用了给的数据后，生成了render.html，浏览器打开显示出来的数据是正常的猜测可能是notebook导致的bug 测试结果代码如下： from pyecharts.charts
python如何删除excel某列中不含某些值所在的行 python
2022-03-16 11:18

回答 1 已采纳简单的方法就是，适合数据不多的情况用openpyxl库读入 excel2 到列表从尾部遍历excel1 ，发现包含关键字，用 delete_rows 方法删除
结合mahout的数据挖掘算法介绍
2014-09-03 08:25

B11040805的博客数据挖掘算法前言：数据挖掘和机器学习包含了许多的算法，算法的介绍往往是枯燥乏味的。本文中结合mahout和小例子还解释这些算法。因此我们先介绍一下mahout。准备工作：Mahout环境的搭建初识mahout Hadoop是...
python字典关键字索引 python
2022-09-17 18:40

回答 5 已采纳您好，功能已实现。 dict1 = {'ForceApplying': ['R - 1', 'R - 2', 'R - 3', 'R - 4', 'R - 5', 'R - 6', 'R - 7',
并发编程面试题（2020最新版）
2020-03-30 23:20

wangzhipeng47的博客多线程编程中一般线程的个数都大于 CPU 核心的个数，而一个 CPU 核心在任意时刻只能被一个线程使用，为了让这些线程都能得到有效执行，CPU 采取的策略是为每个线程分配时间片并轮转的形式。当一个线程的时间片用完...
一个小兔子的大数据见解1
2019-02-20 14:00

会武术的科学家的博客离线阶段刚去公司的时候，做数据的迁移，写sqoop脚本，（注意：这里可能会问到sqoop增量导入数据的方式式，一般会用到append追加的模式）把数据...这里有技术的问题，实际上把数据放到hive中是放到了hadoop的hdfs...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月20日

悬赏问题

¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效

网页表中的关键字都相似，python如何进行数据清洗，且不错位

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新