python处理tsv文件

现有一个矩阵（tsv文件），行名为ENSG开头+数字编号
前五行五列情况如图

想要读取output.json文件中如图的对应关系，把ENSG开头+数字编号替换为后面的代号内容
例如：行名为ENSG00000186092 替换为OR4F5

其中output.json中各个列使用\t分隔
输出名称替换后的矩阵（tsv文件）到指定路径

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

Java大魔王 2022-09-23 15:05

关注

    保留在json中不存在的数据：
    import pandas as pd
    json_data = pd.read_json("xxx.json", typ='series')
    json_dict = json_data.to_dict()
    df_chunk = pd.read_csv("xxx.tsv", sep='\t', chunksize=1000)
    df_chunk_list = []
    for chunk in df_chunk:
        chunk['Ensembl_ID'] = chunk['Ensembl_ID'].apply(lambda x: x.split(".")[0])
        for index, row in chunk.iterrows():
            try:
                chunk.loc[index, 'Ensembl_ID'] = json_dict[row['Ensembl_ID']]
            except:
                pass
        df_chunk_list.append(chunk)
    result_Df = pd.concat(df_chunk_list)
    result_Df.to_csv('result.tsv', sep='\t', index=False)

    不保留在json中不存在的数据：
    import pandas as pd
    json_data = pd.read_json("xxx..json", typ='series')
    json_dict = json_data.to_dict()
    df_chunk = pd.read_csv("xxx..tsv", sep='\t', chunksize=1000)
    df_chunk_list = []
    for i, chunk in enumerate(df_chunk):
        chunk['Ensembl_ID'] = chunk['Ensembl_ID'].apply(lambda x: x.split(".")[0])
        for index, row in chunk.iterrows():
            try:
                chunk.loc[index, 'Ensembl_ID'] = json_dict[row['Ensembl_ID']]
            except:
                chunk.drop(index=[index], inplace=True)
        df_chunk_list.append(chunk)
    result_Df = pd.concat(df_chunk_list)
    result_Df.to_csv('result.tsv', sep='\t', index=False)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(3条)

报告相同问题？

关注问题

Python文件操作(json、csv、tsv、excel、pickle文件序列化)
2020-10-14 19:42

herosunly的博客 2.3 csv、tsv等格式文件 2.4 excel文件 2.5 文件序列化 2.6 读取大文件 3. 文件路径迭代 3.1 os.walk 3.2 glob 4. 对输入文件名(argv)进行处理 5. 文件内容搜索 5.1 逐行遍历匹配内容............
在Python中读取R语言数据并使用NMF算法
2025-08-12 13:44

Python作为一门高效的编程语言，不仅提供了强大的数据处理功能，还允许我们整合和利用R语言的资源，进一步扩展了其数据分析和科学计算的能力。非负矩阵分解算法作为降维工具，特别适用于处理具有非负性质的数据，...
001Python编程在数学建模中的应用（20240715）- 背景.pdf
2024-07-21 21:52

Python作为一种强大的编程语言，在数学建模领域有着广泛的应用。它不仅支持多种编程范式（如面向对象、命令式、函数式等），而且拥有丰富的第三方库，这些特性使得Python成为进行数学建模的理想选择。 - **简洁性**...
【零基础入门】一篇弄懂tsv、csv、xls等文件类型区别及处理（python版）
2024-04-03 13:20

十二月的猫的博客考虑到进行机器学习、深度学习训练、预测时我们不免接触到许许多多的数据，而这些数据又以不同的格式存在（主要有csv、xls、tsv三种格式），所以本文就想来讲讲这三种格式数据的转化、阅读、处理
python读取csv文件
2022-11-28 17:56

Python是一种广泛使用的高级编程语言，尤其在数据处理和分析领域有着强大的功能。CSV（Comma Separated Values）文件格式是存储表格数据的标准方式，因为它的简单性和通用性，所以经常被用于数据交换。本篇文章将...
.tsv和.csv的区别和读取（python）
2024-07-22 14:10

Summer_Anny的博客 TSV (Tab-Separated Values): TSV 文件则使用制表符 \t 作为字段分隔符。...在Python中，读取这两种文件通常使用pandas库，因为它提供了简单且功能强大的数据处理接口。首先，确保你的环境中安装了pandas库。
基于Python、HTML和Shell语言的生物信息课程学习笔记设计源码
2024-10-01 14:23

另外，15个TSV表格文件提供了一种简单的数据存储格式，可用于存储大量的生物信息数据，并且易于使用各种编程语言进行处理和分析。设计源码中的11个HTML文档是学习笔记的前端展示部分，用户可以通过网页界面方便地...
【地球数据处理】基于Python的Google Earth Engine数据集自动化收集与整理：实现数据集元数据提取和分类存储文档的主要内容
2025-05-27 16:35

适合人群：熟悉Python编程语言，对地理信息系统(GIS)或遥感数据处理感兴趣的开发者或研究人员。使用场景及目标：①自动化批量下载和整理GEE平台上的公共数据集元数据；②为后续的数据分析、可视化或其他应用提供...
14、Python 文件操作、数据处理与序列化全解析
2025-07-23 23:44

red88的博客本文全面解析了Python在文件操作、数据处理与序列化方面的多种技术，涵盖了回声服务器实现、临时文件和目录的创建、串口通信、对象序列化（如使用pickle模块）、CSV数据的读写等内容。同时，文章通过示例代码和流程...
Python技能树进度统计Python代码
2022-02-19 00:04

在Python编程语言的学习过程中，跟踪和记录个人技能树的进度是一项有益的任务，它可以帮助学习者了解自己在不同领域的掌握程度。本示例代码提供了一种方法来管理这种进度，并进行有效的统计分析。以下是对给定的文件...
Python实战：轻松掌握CSV文件操作与数据处理技巧
2024-12-11 01:15

54newbie的博客姓名,年龄,城市张三,25,北京李四,30,上海王五,22,广州Python的csv模块功能强大且易于使用，适合初学者进行数据处理。通过上面的实例，你应该已经掌握了如何读取、写入CSV文件，以及处理不同的情况。随着不断练习，你...
Python 30 天：第 19 天 - 文件处理
2023-03-21 18:22

舍不得，放不下的博客除了处理文件，我们还将在本节中看到不同的文件格式（.txt、.json、.xml、.csv、.tsv、.excel）。首先，让我们熟悉处理具有常见文件格式（.txt）的文件。文件处理是编程的一个重要部分，它允许我们创建、读取、更新...
好程序员Python培训分享Python编程中常见的异常处理
2020-07-16 17:44

好程序员IT的博客好程序员Python培训分享Python编程中常见的异常处理，今天将对python编程中经常会遇到的一些报错与异常的进行总结与分析，虽然不会面面俱到，但是可以提供一种面对这样的问题时的思考方法，会对python的编程能力的...
python数据分析与数据化运营笔记
2022-03-08 22:20

第三方库包括交互开发库 IPython、科学计算库 Numpy、工程计算 Scipy、数据分析 Panda、统计建模和计量 Statsmodels、机器学习 Scikit-learn、自然语言 jieba、数据库连接库、HTML 处理库、爬虫相关库、图形展示库 ...
基于甬江话的Python甬江话字词表设计源码
2024-10-05 04:09

本项目基于Python编程语言，对甬江话的字词进行了系统的整理和编码，形成了一套完整的字词表设计源码。该源码的发布和应用，为甬江话的研究与教学提供了便利的工具，同时也为其他地方方言的数字化整理提供了参考模式...
标题：TSV文件转Excel文件的编程实现
2023-09-21 21:43

TechGlide的博客 TSV（Tab Separated Values）文件是一种以制表符为分隔符的纯文本文件，常用于存储和交换数据。本文将介绍如何使用编程语言将TSV文件...通过上述的步骤和代码，我们可以使用Python编程语言将TSV文件转换为Excel文件。
rainbow_csv：彩虹CSV-Vim插件：突出显示CSV和TSV文件中的列，并以类似SQL的语言运行查询
2021-01-30 21:05

提供RBQL中的SELECT和UPDATE查询：类似于SQL的转编程查询语言。 CSV文件的一致性检查（CSVLint）对齐和缩小CSV字段（在字段中添加/删除尾随空格）有四种方法可以启用csv列突出显示：基于文件内容和/或扩展名...
挑战30天学完Python：Day19 文件处理
2024-02-23 20:24

Mega Qi的博客本系列为Python基础学习，原稿来源于英文项目，大奇主要是对其本地化翻译、逐条验证和补充，想通过30天完成正儿八经的系统化实践。此系列适合零基础同学，或仅了解Python一点知识，但又没有系统学习的使用者。总之...
PyPI 官网下载 | tsv_data_analytics-0.1.8-py3-none-any.whl
2022-02-05 22:40

Python是一种高级编程语言，以其简洁的语法和强大的标准库著称。在数据分析领域，Python因其易用性和丰富的第三方库而备受青睐。例如，NumPy用于数值计算，pandas用于数据处理，matplotlib和seaborn用于数据可视化，...
Python 处理分析 14 亿条数据实战
2022-12-08 17:10

秃头雨雨的博客你用 Python 处理过的最大数据集有多大？我想大概不会超过上亿条吧，今天分享一个用 Python 处理分析 14 亿条数据的案例。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月23日

python处理tsv文件

4条回答 默认 最新

问题事件

4条回答默认最新