使用pandas快速提取表中的数字

有一个类似这样的pandas表：

df0 = pd.DataFrame([['x=6.2', 'y=6.3', 'z=6.7'], ['x=7.2', 'x=8.3','x=9.5']])

希望获得其中的所有数字，并存到numpy中。目前所使用的方法如下：

df0_np = np.zeros([df0.shape[0], 3])
for i in range(df0_np.shape[0]):
    df0_np[i, :] = df0.iloc[i, :].str.extract(r'(\d+.\d+)').transpose()
print(df0_np)

得到结果如下：

[[6.2 6.3 6.7]
 [7.2 8.3 9.5]]

由于str.extract()方法只能应用于series，不知道有什么更快捷的方法能够一次性应用于所有的dataframe，因此采用循环的方法解决。希望能够直接应用于dataframe对象获得最终的numpy数组，感谢。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ShowMeAI 2023-01-04 11:38
关注
可以使用pandas的apply函数来实现对整个DataFrame的操作。

定义一个函数extract_numbers，用于提取字符串中的数字，然后使用apply函数将这个函数应用于DataFrame的每一行，最后将提取出的数字存到一个新的DataFrame中。实现如下：

import re import numpy as np import pandas as pd def extract_numbers(s): """提取字符串中的数字""" return list(map(float, re.findall(r'\d+.\d+', str(s)))) df0 = pd.DataFrame([['x=6.2', 'y=6.3', 'z=6.7'], ['x=7.2', 'x=8.3','x=9.5']]) df1 = df0.apply(extract_numbers, axis=1) df1_np = np.array(df1.to_list()) print(df1_np)

输出

[[6.2 6.3 6.7] [7.2 8.3 9.5]]
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

使用pandas快速提取表中的数字 python 数据分析
2023-01-04 11:24

回答 1 已采纳可以使用pandas的apply函数来实现对整个DataFrame的操作。定义一个函数extract_numbers，用于提取字符串中的数字，然后使用apply函数将这个函数应用于DataFrame
pandas如何换表头 python
2022-08-06 15:45

回答 1 已采纳在读的时候，加一个参数就可以了 df = pd.read_excel(file,header=2,names=fheader)
pandas中先判断表头为空后自定义表头 python 有问必答
2021-09-04 21:43

回答 1 已采纳值错误：长度不匹配：期望轴有6个元素，新值有5个元素
Pandas必会的方法汇总，用Python做数据分析更加如鱼得水
2021-08-15 20:59

退休的龙叔的博客 Pandas常用方法汇总，数据分析宝藏手册
pandas 怎么提取年月日 python
2021-12-08 11:58

回答 1 已采纳没用过pandas，但是对于这样的格式可以采用 a.split(' ')[0] 以空格为界限取前半部分
pycharm中pandas库的使用 python
2023-03-12 15:35

回答 3 已采纳根据您提供的信息，我猜测报错信息可能是关于“ValueError: Shape of passed values is (5, 4), indices imply (5, 5)” 或者 “ValueE
pandas 中zip的使用 python 推荐算法
2022-09-15 18:56

回答 1 已采纳其实是同样的原理，zip会把可迭代对象对应位置的元素组合成一个元组，你这里的zip里面第二个参数虽然是二维的，但也可以看作是一维数组的数组，每个元素是一个一维数组，这样子应该就好理解了吧。zip把第一
Pandas进阶修炼120题-第一期（Pandas基础，1-20题）
2023-06-07 17:10

大地之灯的博客 pandas 120道习题总结
如何使用pandas修改列表中的字符串 python 后端
2021-09-17 11:06

回答 1 已采纳 print(df_temp['生效时间'].str[1:11])
使用Pandas把Excel数据存储到矩阵中 python 有问必答
2021-12-23 16:09

回答 2 已采纳不知道你想填到怎么样的矩阵中？读入的excel数据就是一个二维数组
pandas使用透明表后运行错误 python
2018-06-29 14:52

回答 3 已采纳 pivot_table默认对values的操作是求和取平均，你的values是时间序列，可能为2018/5/21等，是不能求和的。所以会运行错误。你可以试一下啊用全是数值的列，如number列为1
2023火爆的11门编程语言
2023-06-20 10:51

陆卿之的博客根据不同的应用领域和需求，不同的编程语言都有其独特的优势和适用性。无论使用何种语言只要能更好的实现需求，解决痛点问题，就是好语言。
在爬虫中使用pandas库为啥会爬出乱码 python
2022-04-15 14:54

回答 1 已采纳设置一下encoding=utf-8或者gbk如有用请采纳
Pandas数据分析一览-短期内快速学会数据分析指南(文末送书)
2023-09-14 17:52

fanstuck的博客就以个人经验而已，Pandas是必须要掌握的，它提供了易于使用的数据结构和数据操作工具，使得在Python中处理结构化数据变得更加简单和高效。无论是处理常用的时序数据还是处理金融数据，与各类数据库联动或者是使用...
实验17 Pandas数据处理
2022-12-15 14:19

Ssaty.的博客建立“2019中国女排身体素质统计.xlsx”文件，将女排队员的姓名、球衣号码、生日、年龄、身高、体重、BMI、扣球高度、拦网高度、位置、省份信息按照身高排降序，存放到新建的excel文件中。本关任务：编写程序，实现...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月4日

悬赏问题

¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效

使用pandas快速提取表中的数字

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新