Linux终端中，怎么从168个ONT原始数据fastq-pass.gz文件中提取N50≥100kb的ONT reads？

求指点，非常感谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Kwan的解忧杂货铺@新空间代码工作室 2024-03-28 23:15
关注
梦里້໌ᮨ 晚上好🌙🌙🌙
本答案参考ChatGPT-3.5

在Linux终端中，你可以使用以下步骤来提取N50≥100kb的ONT reads：

解压缩fastq-pass.gz文件：首先，使用gzip命令解压缩fastq-pass.gz文件，将其转换为fastq-pass文件。命令如下：

gzip -d fastq-pass.gz

计算ONT reads的长度：使用awk命令从fastq-pass文件中提取每个ONT reads的长度，并按照从大到小的顺序进行排序。命令如下：

awk 'NR%4==2 {print length($0)}' fastq-pass | sort -n -r > read_lengths.txt

计算N50值：根据ONT reads的长度数据，计算N50值。N50表示将所有ONT reads按照长度从大到小排序后，将它们累加起来，直到总长度达到所有ONT reads总长度的一半，此时累加的最后一个ONT read的长度即为N50值。你可以使用以下Python代码进行计算：

import numpy as np with open("read_lengths.txt", "r") as file: read_lengths = [int(line.strip()) for line in file] total_length = sum(read_lengths) half_length = total_length / 2 cumulative_length = 0 for length in sorted(read_lengths, reverse=True): cumulative_length += length if cumulative_length >= half_length: n50 = length break print("N50: {} kb".format(n50 / 1000))

将上述代码保存为n50_calculation.py，并在终端中运行：

python n50_calculation.py

提取N50≥100kb的ONT reads：根据计算得到的N50值，从fastq-pass文件中提取N50≥100kb的ONT reads。你可以使用以下awk命令来完成：

awk -v n50=100000 'BEGIN{ORS="\n\n"} {seq=$0; getline; getline; qual=$0; getline} length(seq) >= n50 {print "@"NR/4 "\n" seq "\n" "+" "\n" qual}' fastq-pass > filtered_reads.fastq

最终，你将会得到一个名为filtered_reads.fastq的文件，其中包含N50≥100kb的ONT reads。

请注意，上述的命令和代码是基于前提条件，即fastq-pass文件是符合标准的FASTQ格式的，并且每个ONT read都以四行的格式进行存储。如果你的数据不符合这些条件，需要相应地进行修改。
解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

RNA-seq在subread比对时提示不能找到gene identifie 同时输出的txt文件格式混乱 linux
2022-12-24 22:13

回答 3 已采纳 1、警告信息 "Unable to find gene identifier for a feature" 表示 Subread 在处理 GTF 文件时无法找到 gene_id 属性，也就是说你使用的
microrna筛选reads长度 linux perl python 数据挖掘
2019-03-08 20:07

回答 2 已采纳 ![图片说明](https://img-ask.csdn.net/upload/201903/11/1552265175_750566.jpg) ``` ```
在具有条件的给定数组的php中制作子数组 php
2014-02-05 06:32

回答 1 已采纳 try this php code i thing it will useful for you $Info= array("Lib-1604_S1_L001_R1_001.fastq.gz",
RNA病毒基因组的重头组装-内含tophat2报错的快速解决办法-CPIV3数据分析-2023-07-13
2023-07-15 10:11

垚垚爸爱学习的博客 vim新建RNA_seq_script_1对CPIV3测序数据进行质控分析。
小白求shell自动化脚本
2016-10-31 15:35

回答 2 已采纳创建一个文件run.sh，输入以下内容，保存. #!/bin/sh hisat2 -p 8 --dta -x ~/chrX_data/indexes/chrX_tran -1 ~/chrX_d
Trinity安装与使用-Trinity-v2.15.1（bioinfomatics tools-006）
2024-03-05 21:17

让学习成为一种生活方式的博客 `--min_contig_length `: 报告的最小组装连锁长度（默认=200，必须>=100） - `--long_reads `: 包含经过错误校正或循环共识（CCS）的pac bio读取的fasta文件（**注意：这是一个实验参数**，此功能仍在开发中） - `-...
seqkit安装与使用 v2.5.1（生物信息学工具-003）
2024-02-23 23:56

让学习成为一种生活方式的博客 SeqKit - 跨平台且极速的FASTA/Q文件操作工具包，生信胶水之一。
Naopore基因组数据组装软件---NextDenovo下载试用
2022-08-27 21:45

我是大南瓜的博客 Naopore基因组数据组装软件---NextDenovo下载试用
单菌二三代数据组装神器Unicycler-Ragtag连接contig-pyGenomeViz基因组共线分析
2022-10-05 20:24

Neptuneyut的博客它既可以使用SPAdes组装纯Illumina短读长的二代数据，也可以使用miniasm+Racon管道组装三代长读长数据（PacBio或Nanopore）。进一步，可以同时给它二代和三代数据，它将进行短读长优先的混合组装，以获得最好的组装...
iMeta | 青岛华大范广益组基于共标签测序数据的高质量宏基因组组装工具MetaTrass...
2022-08-25 21:00

生信宝典的博客点击蓝字关注我们MetaTrass：基于共标签测序数据的人类肠道微生物高质量宏基因组组装工具https://doi.org/10.1002/imt2.46RESEARCH ARTICLE●2022年8月15日，青岛华大基因研究院齐彦伟团队在iMeta在线发表了题为...
seqkit——fastq/fasta快速处理
2020-12-30 01:01

随风而逝*的博客序列操作： seqkit seq reads.fq.gz |less -S ##查看fastq文件 seqkit seq reads.fq.gz -n -i ##取出fastq文件的reads_id seqkit seq reads.fq.gz -s -w 0 ##取出fastq文件中的序列 2.统计 seqkit stats reads.fq.gz...
MPB：微生物所蔡磊组-基于二代测序的真菌基因组组装和注释
2021-01-08 07:00

刘永鑫Adam的博客用来去除接头和低质量碱基，对于未去接头的原始下机数据（Anthony等，2014），命令如下： $ trimmomatic PE -threads 4 illumina.1.fastq illumina.2.fastq illumina.1.clean.fastq illumina.1.unparied.fastq ...
康乃馨基因组-文献精读15
2024-05-21 00:18

让学习成为一种生活方式的博客康乃馨（Dianthus caryophyllus）是世界上最受欢迎的观赏花卉之一。...接下来，通过多种仪器类型从花的不同部位在多个发育阶段生成了一系列代谢组数据集，以评估色素和挥发性化合物积累的空间和时间差异。
Nature综述：鸟枪法宏基因组-从取样到数据分析——2万字带你系统入门宏基因组实验和分析
2019-09-17 18:37

刘永鑫Adam的博客文章目录NBT：鸟枪法宏基因组-从取样到数据分析热心肠日报摘要正文图1. 宏基因组分析流程概述附图1. 用于规划宏基因组学研究的示例工作流程附框1. 实验设计中的问题和解决方案鸟枪法宏基因组学研究方案设计样本采集...
RNA-seq常用命令（无参）
2018-04-11 17:29

weixin_33912445的博客 0.前期准备先在工作目录下创建以下几个目录： 01.raw_data #用于存放原始数据 02.fastq #用于存放fastq格式数据 03.fastqc #用于存放QC结果 04.trinity_result #用于存放trinity结果数据处理的...
使用FastANI与Skani计算平均核苷酸一致性(ANI)
2024-05-22 21:18

Asa12138的博客 ANI 是指平均核苷酸一致性（Average Nucleotide Identity），是一种用来比较基因组的指标。FastANI和Skani是常用于计算ANI的快速准确的软件，在此介绍一下这两个工具。
一文搞定细菌基因组De Novo测序分析
2021-05-01 00:41

刘永鑫Adam的博客本文转自基因的生物信息学分析，链接https://mp.weixin.qq.com/s/xWOlv5WVJ7LwTuRQDXmGzg以一个细菌的测序数据为例子，介绍细菌基因组测序分析流程...
nextpolish安装_NECAT: Nanopore数据的高效组装工具
2020-12-20 14:36

weixin_39895486的博客 NECAT是肖传乐老师团队开发的一个针对Nanopore数据组装的软件，目前该工具尚未发表，除了https://github.com/xiaochuanle/NECAT有软件的介绍外，暂时没有中文资料介绍NECAT的使用。太长不看的结论: Nanopore的组装...
NECAT: Nanopore数据的高效组装工具
2019-10-18 17:42

徐洲更hoptop的博客 NECAT是肖传乐老师团队开发的一个针对Nanopore数据组装的软件，目前该工具尚未发表，除了https://github.com/xiaochuanle/NECAT有软件的介绍外，暂时没有中文资料介绍NECAT的使用。太长不看的结论: Nanopore的组装...
基因组组装：NextDenovo2 使用大全
2024-04-27 19:53

数据科学工厂的博客在性能对比测试中，我们将NextDenovo与其它几种组装工具进行了比较，测试所用的数据包括来自人类和果蝇的Oxford Nanopore长序列读取，以及来自拟南芥的PacBio连续长序列读取（CLR）。此外，NextDenovo在组装的一致性...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月28日

悬赏问题

¥15 关于#开发语言#的问题：FDTD建模问题图中代码没有报错，但是模型却变透明了
¥15 uniapp的h5项目写一个抽奖动画
¥15 TeleScan不能修改bar
¥100 请问我基于逐飞库写的这个有关于mp u6050传感器的函数，为什么输出的值是固定的？
¥15 hadoop中启动hive报错如下怎么解决
¥15 如何优化QWebEngineView 加载url的速度
¥15 关于#hadoop#的问题，请各位专家解答！
¥15 如何批量抓取网站信息
¥15 Spring Boot离线人脸识别
¥15 使用Ant Design Pro vue的时候，使用环境变量的时候，构建报错是什么原因

Linux终端中，怎么从168个ONT原始数据fastq-pass.gz文件中提取N50≥100kb的ONT reads？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新