讯飞粤语转写的分词结果不好,很多都是按照字来分词的,然后有一个时间戳(开始时间,结束时间)
我利用jieba对整句话重新分词
我发现jieba分词效果很好
但是时间戳信息怎么获得呢?
我开始的想法是按照字来组合,一个词的时间戳是由第一个字的开始时间和最后一个字的结束时间决定的。
但是具体代码怎么写没有思路。
希望可以得到帮助
讯飞粤语转写的分词结果不好,很多都是按照字来分词的,然后有一个时间戳(开始时间,结束时间)
我利用jieba对整句话重新分词
我发现jieba分词效果很好
但是时间戳信息怎么获得呢?
我开始的想法是按照字来组合,一个词的时间戳是由第一个字的开始时间和最后一个字的结束时间决定的。
但是具体代码怎么写没有思路。
是不是这样:
a=['学习','派森','要','用功夫']
b='''学 0.01 0.06\n习 0.07 0.20\n派 0.21 0.32\n森 0.33 0.45\n要 0.46 0.56\n用 0.57 0.65\n功 0.66 0.78\n夫0.79 0.89'''
c={}
n=0
for x in a:
len_x=len(x)
c[x]=b.split('\n')[n].split()[1]+' '+b.split('\n')[n+len_x-1].split()[-1]
n+=len_x
print(c)
F:\2021\qa\ot3>t4
{'学习': '0.01 0.20', '派森': '0.21 0.45', '要': '0.46 0.56', '用功夫': '0.57 0.89'}