关于#python#的问题：二维数组去重保留最后一行满足条件的数据（相关搜索：数组去重）

在python中有个二维的np.array数据，数组中有很多重复的数据，需要对数组根据第一列和最后一列去重处理，保留最后一行满足条件的数据，示例数据如下，一个二维数据，有5行13列，实际运用中行数可能会到60万条左右


data_array = np.array([[1050364, 13, 15, 18, 2, 2195, 3.22, 2800, 0, 0, 1, 1, 7301],
                       [3562, 13, 14, 25, 1, 2829, 20.62, 200, 0, 0, 1, 1, 1081],
                       [1050364, 13, 15, 18, -2, 2195, 3.22, 2800, 0, 0, 0, 1, 7301],
                       [3562, 13, 14, 25, 1, 2829, 20.62, 200, 20.62, 200, 0, 1, 1081],
                       [1050368, 13, 19, 7, 1, 2551, 2.56, 1000, 0, 0, 0, 1, 7301],
                       [3568, 13, 20, 4, 1, 2048, 5.18, 2500, 5.19, 2500, 0, 10, 1081]])

数组中有很多过时或者重复的数据，需要对数组去重处理，根据第一列和最后一列去重处理，第一列和最后一列相同的数据保留最后一行，处理后的结果如下：

result_array = np.array([[1050368, 13, 19, 7, 1, 2551, 2.56000, 1000, 0, 0, 0, 1, 7301],
                         [1050364, 13, 15, 18, -2, 2195, 3.22000, 2800, 0, 0, 0, 1, 7301],
                         [3562, 13, 14, 25, 1, 2829, 20.62000, 200, 20.62000, 200, 0, 1, 1081],
                         [3568, 13, 20, 4, 1, 2048, 5.18000, 2500, 5.19000, 2500, 0, 10, 1081]])

结果中，数组的第一列和最后一列都是唯一的，python中有什么算法或者第三方库能够满足这种处理需求？

现在我找到一个python第三方库“numpy_indexed”，去重处理的代码如下：

import numpy_indexed as npi
group_index, result_array = npi.group_by(data_array[:, [-1, 0]]).last(data_array)

使用“numpy_indexed”库中的group_by和last方法可以得到正确的结果，数据量少时处理速度还行，但是当数据量到30万条以上时，处理速度下降，效率不高，有没有什么更高效、更快速的处理方式？
希望各位能够推荐更高效、更快速的处理方式，

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

Marst·Writer 2024-08-13 12:20

关注

解决方案: 采用pandas库对指定列进行去重,保留后一次结果
代码如下

import pandas as pd
import numpy as np

data_array = np.array([[1050364, 13, 15, 18, 2, 2195, 3.22, 2800, 0, 0, 1, 1, 7301],
                       [3562, 13, 14, 25, 1, 2829, 20.62, 200, 0, 0, 1, 1, 1081],
                       [1050364, 13, 15, 18, -2, 2195, 3.22, 2800, 0, 0, 0, 1, 7301],
                       [3562, 13, 14, 25, 1, 2829, 20.62, 200, 20.62, 200, 0, 1, 1081],
                       [1050368, 13, 19, 7, 1, 2551, 2.56, 1000, 0, 0, 0, 1, 7301],
                       [3568, 13, 20, 4, 1, 2048, 5.18, 2500, 5.19, 2500, 0, 10, 1081]])

df = pd.DataFrame(data_array)
# 对列0和12进行去重
df_new = df.drop_duplicates(subset=[0, 12], keep="last")
print(df_new)

去重的效果如下

报告相同问题？

关注问题

关于#python#的问题：在一行中输入多个数据（空格隔开） python
2022-09-11 16:52

回答 2 已采纳 text = input().strip().split(' ') a = float(text[0]) b = float(text[1]) c = float(text[2]) sum = a +
关于#python#的问题：python语言如何建立乱序列表 python 学习方法
2023-03-31 16:28

回答 3 已采纳基于Monster 组和GPT的调写： import random # 生成包含1到100的整数列表 lst = list(range(1, 101)) # 对列表进行乱序操作 random.s
python3中将excel中一（多）行转换为二维数组，一行就是一个一维数组 python
2022-04-30 15:14

回答 2 已采纳给个参考，可以的话望采纳，谢谢！ import csv from re import A x = [] with open('data.xls ', encoding='utf8') as f:
python 去除二维数组/二维列表中的重复行方法
2020-09-19 16:34

在Python编程中，处理数据时有时需要去除二维数组或二维列表中的重复行。二维数组，通常指的是numpy数组，而二维列表则是由多个列表组成的列表。本文将详细介绍如何在Python中去除这些结构中的重复行。首先，我们...
关于#python#的问题：通过Python的进行了排序，想对指定的数据下面插入空白行 python
2022-10-03 16:34

回答 2 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 文章：数据探索（数据清洗）②—Python对数据中的缺失值、异常值和一致性进行处理中也许有你想要的答案，请看下吧如果你已经解决了该问题, 非常希
关于#python#的问题：python编程，程序的控制结构 python
2022-07-01 19:44

回答 1 已采纳 split()方法返回的是分割后的列表，所以第一题里 a = ['a', 'b', 'c', 'd']，再通过循环将元素并排打印出来第二题里的 a = ['1', '2', '3']，注意input(
关于#python#的问题：计算结果四舍五入，保留2位小数 python
2023-03-22 23:52

回答 3 已采纳使用内置函数round
python的set处理二维数组转一维数组的方法示例
2020-09-19 08:23

### Python的Set处理二维数组转一维数组的方法详解在Python编程中，处理数组是非常常见的需求之一，尤其是在数据科学和机器学习领域。本篇文章将详细介绍如何利用Python中的`set`来处理二维数组，并将其转换为一维...
关于#python#的问题：最后一个if语句应该不执行的 python
2022-02-04 20:40

回答 4 已采纳你这自己引用自己的写法还是头回见，就不能改成循环执行吗？
关于#python#的问题：对上面折行有关try语句的代码的输出不是很理解 python
2023-03-18 22:35

回答 3 已采纳参考GPT和自己的思路：这段代码包含两个函数，它们都使用了 try...finally 语句。try 子句用于包含可能发生异常的代码，而 finally 子句用于包含无论是否发生异常都必须执行的代码
关于#python#的问题：python 使用pandas 排序Excel表格列中数据无法正常显示 python
2023-01-28 16:29

回答 2 已采纳这是因为写入excel后，数据默认为数值类型，数值类型的数据在excel就会自动用科学表达式的形式表示，你可以在写入数据到excel前把数据转为字符串的类型的就不会了啦，怎么转换，参考:data =
python 数组去重_python数组去重
2020-11-20 22:43

weixin_39866857的博客广告关闭腾讯云11.11云上盛惠，...并集a = b = c = # 并# 合并数组a.extend(b)# 去重array =list(set(a))print(array)# 第二种方法array =list(set(a)|set(b))print(array)打印结果：交集a = b = c = # 交array ...
关于#python#的问题：要求通过python编程，遍历三角区域内所有的整数点坐标 python 算法线性回归
2022-05-30 13:22

回答 1 已采纳 def line(a:tuple, b:tuple)->list[tuple]: if a[0]==b[0]:return [(a[0],a[1]+i) for i in range(b
python数组重复数据去重_Python列表重复数据消除的四种方法及其性能比较,去,4,方式,对比...
2020-12-10 16:31

weixin_39637614的博客列表去重是Python中一种常见的处理方式，任何编程场景都可能会遇到需要列表去重的情况。列表去重的方式有很多，本文将一一讲解他们，并进行性能的对比。让我们先制造一些简单的数据，生成0到99的100万个随机数：...
Python numpy 点数组去重的实例
2020-09-20 14:12

在提供的代码中，我们定义了一个名为`duplicate_removal`的函数，该函数接受一个二维数组`xy`作为输入，其中每一行代表一个点的坐标。函数的主要工作流程如下： 1. 检查输入数组`xy`的长度，如果长度小于2，说明...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月9日

悬赏问题

¥40 matlab调用ansys联合
¥15 关于#算法#的问题：运用EViews第九版本进行一系列计量经济学的时间数列数据回归分析预测问题求各位帮我解答一下
¥15 运用EViews第九版本进行一系列计量经济学的时间数列数据回归分析预测问题求各位帮我解答一下！
¥15 setInterval 页面闪烁，怎么解决
¥15 如何让企业微信机器人实现消息汇总整合
¥50 关于#ui#的问题：做yolov8的ui界面出现的问题
¥15 如何用Python爬取各高校教师公开的教育和工作经历
¥15 TLE9879QXA40 电机驱动
¥20 对于工程问题的非线性数学模型进行线性化
¥15 Mirare PLUS 进行密钥认证？（详解）

关于#python#的问题：二维数组去重保留最后一行满足条件的数据（相关搜索：数组去重）

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新