丧嘻嘻 2021-03-17 15:11 采纳率: 0%
浏览 110

TERCOM工具使用方法

http://www.cs.umd.edu/~snover/tercom/工具代码如下

我执行的脚本如下  java -jar tercom.7.25.jar -r dev.pe -h dev.mt -n out

但是结果不尽人意,我想要每句话的 TER值,有没有人用过这个工具

  • 写回答

1条回答 默认 最新

  • 你知我知皆知 2024-07-24 01:19
    关注

    以下回答参考 皆我百晓生券券喵儿 等免费微信小程序相关内容作答,并由本人整理回复。

    Tercom是一个基于统计的方法来计算句子的相似度。在你的例子中,你正在尝试将一个英语文本翻译成中文,并希望了解每句话之间的相似性。

    如果你只是想了解每句话的相似性,你可以直接运行以下命令:

    java -jar tercom.7.25.jar -r dev.pe -h dev.mt
    

    这会生成一个名为out的文件,其中包含每个句子的相似度得分。这些分数越高,表示两个句子越相似。

    然而,如果要获取句子的TER值,你需要提供更多的参数。例如,你可以添加-T参数来指定句子类型(这里是dev),然后运行以下命令:

    java -jar tercom.7.25.jar -r dev.pe -h dev.mt -T dev
    

    这将只计算dev类型的句子之间的相似度。请注意,这可能不会得到你预期的结果,因为dev类型的数据并不总是具有良好的代表性。

    此外,如果你想获取特定类型的句子的TER值,你需要进一步调整参数。例如,如果你想获取所有英文单词的TER值,可以使用-W参数,如下所示:

    java -jar tercom.7.25.jar -r dev.pe -h dev.mt -T dev -W en
    

    这将仅计算来自英语数据集的所有英文单词之间的相似度。同样地,你还可以根据其他需求调整参数,以获取所需的相似度信息。

    评论

报告相同问题?

悬赏问题

  • ¥15 在若依框架下实现人脸识别
  • ¥15 网络科学导论,网络控制
  • ¥100 安卓tv程序连接SQLSERVER2008问题
  • ¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比,为什么Snetinel-2计算的结果最小值特别小,而Lansat8就很平均
  • ¥15 metadata提取的PDF元数据,如何转换为一个Excel
  • ¥15 关于arduino编程toCharArray()函数的使用
  • ¥100 vc++混合CEF采用CLR方式编译报错
  • ¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误,如何解决?
  • ¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
  • ¥15 c#逐行读取txt文本,但是每一行里面数据之间空格数量不同