qq_38894645 2022-01-11 10:34 采纳率: 0%
浏览 17

我该如何获得新的分词的时间戳

讯飞粤语转写的分词结果不好,很多都是按照字来分词的,然后有一个时间戳(开始时间,结束时间)
我利用jieba对整句话重新分词
我发现jieba分词效果很好
但是时间戳信息怎么获得呢?
我开始的想法是按照字来组合,一个词的时间戳是由第一个字的开始时间和最后一个字的结束时间决定的。
但是具体代码怎么写没有思路。

img


希望可以得到帮助

  • 写回答

1条回答 默认 最新

  • CSDN专家-HGJ 2022-01-11 15:07
    关注

    是不是这样:

    a=['学习','派森','要','用功夫']
    b='''学 0.01 0.06\n习 0.07 0.20\n派 0.21 0.32\n森 0.33 0.45\n要 0.46 0.56\n用 0.57 0.65\n功 0.66 0.78\n夫0.79 0.89'''
    c={}
    n=0
    for x in a:
        len_x=len(x)
        c[x]=b.split('\n')[n].split()[1]+' '+b.split('\n')[n+len_x-1].split()[-1]
        n+=len_x
    print(c)
    
    
    
    F:\2021\qa\ot3>t4
    {'学习': '0.01 0.20', '派森': '0.21 0.45', '要': '0.46 0.56', '用功夫': '0.57 0.89'}
    
    
    评论

报告相同问题?

问题事件

  • 创建了问题 1月11日

悬赏问题

  • ¥15 如何利用c++ MFC绘制复杂网络多层图
  • ¥20 要做柴油机燃烧室优化 需要保持压缩比不变 请问怎么用AVL fire ESE软件里面的 compensation volume 来使用补偿体积来保持压缩比不变
  • ¥15 python螺旋图像
  • ¥15 算能的sail库的运用
  • ¥15 'Content-Type': 'application/x-www-form-urlencoded' 请教 这种post请求参数,该如何填写??重点是下面那个冒号啊
  • ¥15 找代写python里的jango设计在线书店
  • ¥15 请教如何关于Msg文件解析
  • ¥200 sqlite3数据库设置用户名和密码
  • ¥15 AutoDL无法使用docker install吗?
  • ¥15 cups交叉编译后移植到tina sdk的t113,只需要实现usb驱动打印机,打印pdf文件