从GEO上下载了circRNA芯片数据,芯片是由安捷伦公司提供的Agilent-084410 Human LncRNA 4X180K(GEOdataset平台编号GPL27713),我如何将该芯片上的探针编号转换成标准的circbase ID?
circRNA芯片信息如下例:
从GEO上下载了circRNA芯片数据,芯片是由安捷伦公司提供的Agilent-084410 Human LncRNA 4X180K(GEOdataset平台编号GPL27713),我如何将该芯片上的探针编号转换成标准的circbase ID?
circRNA芯片信息如下例:
引自免费微信小程序:皆我百晓生
为了将安捷伦公司circRNA芯片探针转换为circbase ID,你需要通过序列比对的方法将芯片上的探针序列与circbase数据库中的circRNA序列进行匹配。由于没有现成的工具或API可以直接完成这一转换,因此你需要按照以下步骤手动进行:
示例:
>SPOT_ID_A_23_P20427
AGGAGGTATGAATCCCAGTCCCCAGGAACCTAGCTCTTTAAACTCTGGGGAGTCGGATTC
>SPOT_ID_CUST_H6L_38477
AGTAAAAATTCTCCTACTCCACGTGGAAGTGGCTCCGTGAGAAAAATTCCCTATCAAGCC
对于本地BLAST比对,可以使用NCBI BLAST+工具包,命令大致如下(需先安装并配置好数据库):
blastn -query your_probe_sequences.fasta -db circbase_database.fasta -outfmt "6 qseqid sseqid pident" -max_target_seqs 1 > blast_results.txt
由于这是一个涉及到生物学数据库比对的过程,且需要具体的circbase数据库文件作为参考,以上步骤可能需要根据实际情况调整。另外,由于circRNA的鉴定和注释是一个复杂过程,不同研究之间可能存在差异,完全匹配的情况可能不常见,因此可能还需要结合其他注释信息综合判断。如果你拥有大量数据,建议编写脚本自动化处理上述流程。