#Shell脚本# 用shell脚本合成tcga的基因表达谱矩阵，脚本一直不出结果，求助！

# file_ID和file_name数组分别存储file ID和file name
bash
file_ID=(`awk '{if(NR>1)print $1}' ../gdc_manifest_20181023_012448.txt`)
file_name=(`awk '{if(NR>1)print $2}' ../gdc_manifest_20181023_012448.txt`)

# 数组file_path存储文件路径:
for((i=0;i<${#file_ID[@]};i++)){
    file_path[$i]="./"${file_ID[$i]}"/"${file_name[$i]}
    echo ${file_path[$i]}
}

# 使用awk二维数组进行合并:
awk -v file_num=${#file_path[@]} '
    BEGIN{
        OFS="\t";
    }
    {
        # 每一个文件第一行是列名,而我们不需要合并列名,所以要NR>1
        # 然后以miRNA($1),文件ID(ARGIND),构建值为表达量($2)二位数组a[miRNA][exp].
        if(FNR>1){a[$1][ARGIND]=$3;}
    }
    # 构建了425个数组后进行合并:
    END{
        for(i in a){    # 一维是miRNA,所以i就是miRNA
            printf "%s\t",i     #输出miRNA
            j=1;        # 为了不改变文件顺序所以使用渐加的方式循环
            while(j<file_num+1){        #循环输出每个样本中miRNA的表达量
                printf "%s\t",a[i][j];
                j=j+1;
            }
            print ""    #每一行加个换行
        }
    }' ${file_path[@]} >../miRNA_exp_matrix.txt

# 将file_ID添加到表达量矩阵中:
echo miRNA ${file_ID[@]}|sed 's/ /\t/g'|awk '{if(NR==FNR)print;if(NR>FNR)print}' -  ../miRNA_exp_matrix.txt >../miRNA_exp_matrix_tmp.txt
cp ../miRNA_exp_matrix_tmp.txt ../miRNA_exp_matrix.txt
#删除临时文件:
rm ../miRNA_exp_matrix_tmp.txt

自己学了一下R语言，并没有找到文件操作这些。。。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
这个名字应该不会重复吧 2019-02-27 10:37
关注
加了#!/bin/bash之后，可以运行

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

GEO数据基因表达量验证TCGA模型 r语言
2023-03-09 15:48

回答 1 已采纳小魔女参考了bing和GPT部分内容调写:使用GEO数据和TCGA模型筛选出的预后基因，可以对这些基因的表达量进行分析，以验证TCGA模型的准确性。可以通过比较GEO数据库和TCGA数据库中基因的表达
生信TCGA差异基因分析getDiffExpressedGenes报错 r语言有问必答
2021-11-14 22:48

回答 4 已采纳看仔细了，getDiffExpressedGenes这个函数里面，dataObject@RNASeq2GeneNorm可能是一个空的量，所以dim出来也都是0
tcga数据整理时一直显示找不到文件 r语言数据库
2023-02-27 16:39

回答 1 已采纳这个文件在报错路径下真实存在吗 a6a6b9c6-9db7-42b3-a09f-770b7e126fbb.rna_seq.augmented_star_gene_counts.tsv改成这样试下：pa
TCGA免疫浸润_TCGA_perl脚本tcga_mRNA_merge.pl_perl整理tcga_
2021-10-02 08:05

这些脚本的使用通常需要一定的编程基础，包括Perl语言知识以及对生物信息学数据格式的理解。用户可能需要调整脚本参数，根据自己的研究需求定制分析流程。在实际应用中，用户首先需要获取TCGA的mRNA表达数据，这些...
R语言下载完TCGA数据时，运行GDCprepare（）函数时，总是报C盘临时文件夹的一个错误 r语言有问必答
2021-04-10 23:16

回答 3 已采纳可能是下载的数不完整，或者数据存放路径有问题。建议先将dataPath这个部分代码注释掉，这样来写： BiocManager::install("TCGAbiolinks") library(TC
R语言矩阵更改元素格式时出现问题 r语言有问必答
2021-09-17 12:03

回答 1 已采纳需要对点号进行转义。参考代码如下： e<-'TCGA.2J.AAB1' f<-gsub('\\.','-',e) print(f) #output:"TCGA-2J-AAB1"
tcga数据差异分析 r语言数据库
2023-02-28 18:13

回答 2 已采纳基于Monster 组和GPT的调写：在R中使用na.omit()函数时，它会删除包含缺失值的行并返回一个不包含缺失值的数据框。在您的代码中，您没有将结果赋值给新的对象，所以原始数据框被改变并且删除了
快速提取新版TCGA表达矩阵的R脚本
2023-08-23 16:41

徐利菱的博客现在使用下载转录组数据后，直接是一个对象。网上也有许多提取的教程，我根据教程做了两个R脚本，一个可以快速提取其中的count、tpm、fpkm数据，一个可以快速提取临床信息。首先来看看"source""type""score""phase"...
TCGA数据库建模后GEO数据库或ICGC数据库验证 r语言
2023-02-19 23:00

回答 8 已采纳该回答引用ChatGPT 有可能是由于两个数据集的差异性导致的。虽然两个数据集都是肝癌数据，但是不同的实验条件、处理方法、测序平台等都会导致基因表达的差异。在使用外部验证数据集时，可以进行以下步骤来
tcga数据预后分析 r语言数据库
2023-03-01 10:27

回答 1 已采纳一眼光俊，这个出结果是有条件的(pValue<0.01) & (roc$AUC[2]>0.68) & (pValueTest<0.05) & (rocTest$AUC[2]>0
tcga预后森林图绘制 r语言数据库
2023-03-01 12:02

回答 2 已采纳基于Monster 组和GPT的调写：看起来是绘图时的一个坐标轴问题。由于 Cox 回归模型中某个变量可能具有无限的系数，因此在绘图过程中出现了这个问题。此外，在警告信息中，coxph 函数也提示您在
基于TCGA数据库的甲状腺癌相关miRNA和基因表达谱的分析及临床相关性的研究.pptx
2023-10-09 12:02

基于TCGA数据库的甲状腺癌相关miRNA和基因表达谱的分析及临床相关性的研究本研究基于The Cancer Genome Atlas（TCGA）数据库，对甲状腺癌相关miRNA和基因表达谱进行了分析，并探讨了它们与临床病理特征的关系。...
新版TCGA数据整理，通过R语言实现TCGA数据整理
2024-04-05 03:05

通过对上述文件内容的解析，我们了解到如何使用R语言结合相关包来实现TCGA数据的整理，创建表达矩阵，并根据需要选择不同的数据格式进行分析。这为深入挖掘TCGA数据提供了有效的途径，并可能进一步推动癌症治疗和...
TCGA下载基因表达矩阵、可视化分析
2022-04-21 19:01

偷了月亮的猫猫的博客方法1：选择RNA-Seq 找TSV格式open的文件加入购物车 ...(9条消息) 基于TCGA数据库的差异基因分析实现_学习的派大星的博客-CSDN博客_tcga差异基因...(9条消息) tcga数据下载_TCGA数据下载与ID转换_weixin_39...
TCGA-COAD-mRNA表达数据——结肠癌表达及临床数据集整理
2022-04-05 21:08

TCGA-COAD数据集已经整理成LCPM格式，临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式，现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
1行代码提取6种TCGA表达矩阵和临床信息
2022-09-29 16:58

医学和生信笔记的博客之前的2行代码提取表达矩阵由于大家的R语言水平参差不齐，导致很多新手会报错，于是我把前面的代码打包为一个脚本，1行代码就可以了！脚本已上传到QQ群，需要的小伙伴加群下载即可~ 只需要1行代码就可以获取分别...
典型相关分析matlab实现代码-TCGAsurvival:分析TCGA数据的脚本
2021-05-20 13:12

典型相关分析matlab实现代码提取TCGA数据以进行生存分析的脚本。有关与癌症有关的更多说明，请参见资料说明可通过，获取公开数据。首先，安装BiocManager::install("CNTools") ，克隆存储库git clone ...
TCGA-BLCA-mRNA表达数据（TPM）-膀胱癌表达及临床数据集整理
2023-01-18 14:00

标题中的“TCGA-BLCA-mRNA表达数据（TPM）-膀胱癌表达及临床数据集整理”指的是The Cancer Genome Atlas (TCGA)项目中关于膀胱癌（BLCA）的数据，具体聚焦于mRNA转录水平的表达数据，以Transcripts Per Million (TPM...
【生信分析】基于TCGA肿瘤数据进行基因共表达网络分析
2022-09-19 22:00

镰刀韭菜的博客 WGCNA原文WGCNA 从数千个基因的层面开始，识别临床上感兴趣的基因模块，最后使用模块内连接、基因显著性（例如基于基因表达谱与样本特征的相关性）来识别疾病通路中的关键基因，以进一步验证。WGCNA通过分析基因之间...
新版TCGA表达矩阵提取简单版
2022-11-12 19:25

医学和生信笔记的博客这个神包下载TCGA的RNA-seq数据，只能通过浏览器访问GDC TCGA的官网进行下载，而下载后得到的是一个个文件夹，对于如何整理成一个表达矩阵也是很麻烦的。但是这个方法对于新手还是不够友好，尤其是根据Json文件匹配...
没有解决我的问题, 去提问

悬赏问题

¥30 STM32 INMP441无法读取数据
¥100 求汇川机器人IRCB300控制器和示教器同版本升级固件文件升级包
¥15 用visualstudio2022创建vue项目后无法启动
¥15 x趋于0时tanx-sinx极限可以拆开算吗
¥500 把面具戴到人脸上，请大家贡献智慧
¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面，不要作在线的，要离线状态。
¥15 各位帮我看看如何写代码，打出来的图形要和如下图呈现的一样，急
¥30 c#打开word开启修订并实时显示批注
¥15 如何解决ldsc的这条报错/index error
¥15 VS2022+WDK驱动开发环境

#Shell脚本# 用shell脚本合成tcga的基因表达谱矩阵，脚本一直不出结果，求助！

1条回答 默认 最新

悬赏问题

1条回答默认最新