三筱. 2022-10-12 11:16 采纳率: 90%
浏览 96
已结题

python处理tsv文件矩阵

现有一个矩阵(tsv文件),行名为ENSG开头+数字编号
前五行五列情况如图

img


现已知行名中,小数点前数值出现重复,小数点后数值不同,
现需要保留小数点后数值最大的行名,去除其他小数点后数值更小的行名
例如:行名为7700.1 7700.2 7700.5的三行,仅保留7700.5所在行
输出一个行名没有重复的新矩阵,列名不变

  • 写回答

5条回答 默认 最新

  • Java大魔王 2022-10-12 11:45
    关注

    思路:字符串分割后分组,分组后比较排序后筛选剔除

    import pandas as pd
    
    df = pd.read_csv('xxxx.tsv', sep='\t')
    df['tempOne'] = df['A'].apply(lambda x: x.split(".")[0])
    df['tempTwo'] = df['A'].apply(lambda x: int(x.split(".")[1]))
    df_new = df.iloc[df.groupby('tempOne').apply(lambda o: o['tempTwo'].idxmax())]
    df_new.drop(['tempOne', 'tempTwo'], axis=1, inplace=True)
    

    源数据:

    img


    结果:

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(4条)

报告相同问题?

问题事件

  • 系统已结题 10月23日
  • 已采纳回答 10月15日
  • 创建了问题 10月12日

悬赏问题

  • ¥15 使用微信开发者工具实现一个“婚博会”小程序
  • ¥15 ros的rviz仿真机器人
  • ¥15 关于#linux#的问题(输入输出错误):出现这个界面接着我重新装系统,又让修电脑的师傅帮我扫描硬盘(没有问题)用着用着又卡死(相关搜索:固态硬盘)
  • ¥15 cv::resize不同线程时间不同
  • ¥15 web课程,怎么做啊😭没好好听课 根本不知道怎么下手
  • ¥15 做一个关于单片机的比较难的代码,然后搞一个PPT进行解释
  • ¥15 python提取.csv文件中的链接会经常出现爬取失败
  • ¥15 数据结构中的数组地址问题
  • ¥15 maya的mel里,怎样先选择模型A,然后利用mel脚本自动选择有相同名字的模型B呢。
  • ¥15 Python题,根本不会啊