http://www.cs.umd.edu/~snover/tercom/工具代码如下
我执行的脚本如下 java -jar tercom.7.25.jar -r dev.pe -h dev.mt -n out
但是结果不尽人意,我想要每句话的 TER值,有没有人用过这个工具
http://www.cs.umd.edu/~snover/tercom/工具代码如下
我执行的脚本如下 java -jar tercom.7.25.jar -r dev.pe -h dev.mt -n out
但是结果不尽人意,我想要每句话的 TER值,有没有人用过这个工具
以下回答参考 皆我百晓生、券券喵儿 等免费微信小程序相关内容作答,并由本人整理回复。
Tercom是一个基于统计的方法来计算句子的相似度。在你的例子中,你正在尝试将一个英语文本翻译成中文,并希望了解每句话之间的相似性。
如果你只是想了解每句话的相似性,你可以直接运行以下命令:
java -jar tercom.7.25.jar -r dev.pe -h dev.mt
这会生成一个名为out
的文件,其中包含每个句子的相似度得分。这些分数越高,表示两个句子越相似。
然而,如果要获取句子的TER值,你需要提供更多的参数。例如,你可以添加-T
参数来指定句子类型(这里是dev
),然后运行以下命令:
java -jar tercom.7.25.jar -r dev.pe -h dev.mt -T dev
这将只计算dev
类型的句子之间的相似度。请注意,这可能不会得到你预期的结果,因为dev
类型的数据并不总是具有良好的代表性。
此外,如果你想获取特定类型的句子的TER值,你需要进一步调整参数。例如,如果你想获取所有英文单词的TER值,可以使用-W
参数,如下所示:
java -jar tercom.7.25.jar -r dev.pe -h dev.mt -T dev -W en
这将仅计算来自英语数据集的所有英文单词之间的相似度。同样地,你还可以根据其他需求调整参数,以获取所需的相似度信息。