qq_38894645 2022-01-11 10:34 采纳率: 0%
浏览 17

我该如何获得新的分词的时间戳

讯飞粤语转写的分词结果不好,很多都是按照字来分词的,然后有一个时间戳(开始时间,结束时间)
我利用jieba对整句话重新分词
我发现jieba分词效果很好
但是时间戳信息怎么获得呢?
我开始的想法是按照字来组合,一个词的时间戳是由第一个字的开始时间和最后一个字的结束时间决定的。
但是具体代码怎么写没有思路。

img


希望可以得到帮助

  • 写回答

1条回答 默认 最新

  • CSDN专家-HGJ 2022-01-11 15:07
    关注

    是不是这样:

    a=['学习','派森','要','用功夫']
    b='''学 0.01 0.06\n习 0.07 0.20\n派 0.21 0.32\n森 0.33 0.45\n要 0.46 0.56\n用 0.57 0.65\n功 0.66 0.78\n夫0.79 0.89'''
    c={}
    n=0
    for x in a:
        len_x=len(x)
        c[x]=b.split('\n')[n].split()[1]+' '+b.split('\n')[n+len_x-1].split()[-1]
        n+=len_x
    print(c)
    
    
    
    F:\2021\qa\ot3>t4
    {'学习': '0.01 0.20', '派森': '0.21 0.45', '要': '0.46 0.56', '用功夫': '0.57 0.89'}
    
    
    评论

报告相同问题?

问题事件

  • 创建了问题 1月11日