微凉的衣柜 2023-01-04 11:24 采纳率: 64.7%
浏览 36
已结题

使用pandas快速提取表中的数字

有一个类似这样的pandas表:

df0 = pd.DataFrame([['x=6.2', 'y=6.3', 'z=6.7'], ['x=7.2', 'x=8.3','x=9.5']])

希望获得其中的所有数字,并存到numpy中。目前所使用的方法如下:

df0_np = np.zeros([df0.shape[0], 3])
for i in range(df0_np.shape[0]):
    df0_np[i, :] = df0.iloc[i, :].str.extract(r'(\d+.\d+)').transpose()
print(df0_np)

得到结果如下:

[[6.2 6.3 6.7]
 [7.2 8.3 9.5]]

由于str.extract()方法只能应用于series,不知道有什么更快捷的方法能够一次性应用于所有的dataframe,因此采用循环的方法解决。希望能够直接应用于dataframe对象获得最终的numpy数组,感谢。

  • 写回答

1条回答 默认 最新

  • ShowMeAI 2023-01-04 11:38
    关注

    可以使用pandas的apply函数来实现对整个DataFrame的操作。

    • 定义一个函数extract_numbers,用于提取字符串中的数字,然后使用apply函数将这个函数应用于DataFrame的每一行,最后将提取出的数字存到一个新的DataFrame中。实现如下:
    import re
    import numpy as np
    import pandas as pd
    
    def extract_numbers(s):
        """提取字符串中的数字"""
        return list(map(float, re.findall(r'\d+.\d+', str(s))))
    
    df0 = pd.DataFrame([['x=6.2', 'y=6.3', 'z=6.7'], ['x=7.2', 'x=8.3','x=9.5']])
    df1 = df0.apply(extract_numbers, axis=1)
    df1_np = np.array(df1.to_list())
    
    print(df1_np)
    

    输出

    [[6.2 6.3 6.7]
     [7.2 8.3 9.5]]
    

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 1月12日
  • 已采纳回答 1月4日
  • 创建了问题 1月4日

悬赏问题

  • ¥20 机器学习能否像多层线性模型一样处理嵌套数据
  • ¥20 西门子S7-Graph,S7-300,梯形图
  • ¥50 用易语言http 访问不了网页
  • ¥50 safari浏览器fetch提交数据后数据丢失问题
  • ¥15 matlab不知道怎么改,求解答!!
  • ¥15 永磁直线电机的电流环pi调不出来
  • ¥15 用stata实现聚类的代码
  • ¥15 请问paddlehub能支持移动端开发吗?在Android studio上该如何部署?
  • ¥20 docker里部署springboot项目,访问不到扬声器
  • ¥15 netty整合springboot之后自动重连失效