问题遇到的现象和发生背景
1.在一个数据库中提取物种名称,但是遇到复杂的中括号嵌套的情况。
而我只需要最后一个方括号里的内容,有些方括号里面有嵌套(整条字符串如图,我只想要截取我画了白线的最后一个方括号里的内容)
2.数据量很大,上亿条,如果可以最好有快速一点的方法,没有也没关系。
3.如果有的行很复杂不太好实现,能提取大部分行的就好
一开始用shell,但是知识太浅薄莫有想到很好的解决方法。
BAX96271.1 hypothetical protein MSTE_00936 [[Mycobacterium] stephanolepidis]
OGT92901.1 methylenetetrahydrofolate reductase [NAD(P)H] [Gammaproteobacteria bacterium RIFOXYA12_FULL_61_12]
NHB59397.1 methylated-DNA--[protein]-cysteine S-methyltransferase [Acinetobacter shaoyimingii]
EDV2009001.1 two component system sensor kinase [Salmonella enterica subsp. enterica serovar 4,[5],12:i:-]
用代码块功能插入代码,请勿粘贴截图
cat file | awk -F "[" '{print $2}'
运行结果及报错内容
只能截取无嵌套且有且只有一个方括的行。
我想要达到的结果
折腾了好久了,刚刚看了堆栈的方法但是还是不弄。shell,python、perl都可以