PandasDataFrame合并出错误结果是什么原因怎么办？

df1和df2合并，想要df1中的用户创建时间合并在df2相对应的用户ID后面，用了df2.join(df1)，合并后的df3的行数应该和df2的行数一样。但是df3行数比df2行数多很多。

为了验证join()方法是否有效，另外新建了两个数据量小的df6和df7，结果合并后的df8是正确的想要的结果。

所以很费解为什么df1和df2用join合并就得不到正确结果。求大神指导。

图片说明

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
huanyeliu 2019-04-07 00:08
关注
问题关键在于df1的column‘用户ID’有重复，这样使df2里一个用户ID对应df1多个相同的用户ID。这一点从df3里用户ID为1000015的多个行里有两个不同的用户账号创建时间可以得到验证。
从你给的小数据的例子来说，如果df6的username列有两个‘张三’，df7.join(df6)的结果就会多比原来多出三行，因为df7的username列有三个‘张三’。
解决方案只有查一查df1数据源有没有问题，比如造成一个用户ID会有多个创建时间的原因以及是否合理，如果df1本身合理那么和df2合并后得到的df3是否有意义？所以这取决于这个数据处理的目的是什么。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python之DataFrame实现excel合并单元格
2020-09-20 16:17

本文介绍了一个基于Python DataFrame实现Excel合并单元格的解决方案。首先，我们创建一个名为`MY_DataFrame`的类，它继承自Pandas的DataFrame类，这样我们可以在保持Pandas原有功能的同时，添加自定义的方法。这个类...
python dataframe是什么_什么是Pandas的DataFrame？
2020-12-24 22:00

清凉雪碧的博客什么是DataFrameDataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引，它可以被看做由series组成的字典(共用同一个索引)2. ...
Pandas DataFrame Notes
2018-04-11 11:43

需要注意的是，上述内容中由于是OCR扫描的结果，可能存在一些识别错误，比如在“Column index (df.columns)”之后的乱码“xedni wRoR xedin fda”应该是对“Index (df.index)”的多余重复，实际内容中并没有出现。...
清理Pandas DataFrame中的数据
2021-04-11 05:27

总之，Pandas提供的数据清洗功能强大而灵活，结合Python的人工智能（AI）库，如NumPy和Scikit-learn，可以构建出完整的数据预处理流水线，为数据分析和机器学习项目打下坚实的基础。记得实践是检验真理的唯一标准，...
Python Pandas中DataFrame合并时的索引错位问题排查与解决
2025-09-28 10:25

叫我阿柒啊的博客它提醒我在使用Pandas进行数据合并时，不仅要关注字段的匹配，还要注意索引的一致性。尤其是在从不同来源加载数据时，索引可能不一致，从而影响合并结果。在进行merge操作前，先检查两个DataFrame的索引是否一致，...
python dataframe索引字段相同的合并_python - 合并以相同字母开头的Pandas DataFrame列_python_酷徒编程知识库...
2021-01-12 09:04

采油工的博客假设我有一个DataFrame ：>>> df = pd.DataFrame({'a1':[1,2],'a2':[3,4],'b1':[5,6],'b2':[7,8],'c':[9,0]})>>> dfa1 a2 b1 b2 c0 1 3 5 7 91 2 4 6 8 0>>>我想合并(可能不合并，但是...
pandas dataframe合并时的问题
2020-03-23 16:03

夜观天象昼编程的博客使用函数：pd.concat([df1,df2]) ...（1）ignore_index，默认是false ，但是会导致合并后的dataframe的索引错误， ser1 = pd.Series(['A', 'B', 'C']) ser2 = pd.Series(['D', 'E', 'F']) pd.concat([ser1, s...
(6) 深入探索Python-Pandas库的核心数据结构：DataFrame全面解析
2024-07-06 16:31

码界领航的博客 `DataFrame` 是 pandas 库中最重要的数据结构之一，它用于存储和操作二维标签化的数据结构（即表格型数据）。它的强大功能、灵活性以及易用性，使其成为数据分析领域的重要工具。在 DataFrame 中，我们可以拥有行...
Python Pandas中DataFrame列顺序的更改方法
2025-04-28 11:47

1010n111的博客在使用Python的Pandas库进行数据分析时，DataFrame是一种常用的数据结构。有时候，我们需要根据特定的需求改变DataFrame列的顺序，例如将某一列移动到最前面，或者按照自定义的顺序重新排列列。
【python】基于pandas的EXCEL合并方法
2024-06-11 16:28

码银的博客本文介绍了一种使用Python编程语言中的Pandas库和Glob模块来自动化合并Excel文件的方法。通过编写简洁的脚本，我们可以高效地搜索、读取、合并以及保存大量Excel文件，极大地提高了数据处理的效率。关键词：Python, ...
没有解决我的问题, 去提问

PandasDataFrame合并出错误结果是什么原因怎么办？

2条回答 默认 最新

2条回答默认最新