野原新之楠 2019-06-07 22:06 采纳率: 80%
浏览 468

NLP 文本相似度匹配应如何设计流程

本人是nlp小白,目前做评测,对设计流程不是很懂
评测描述:
给出一个txt文本,里面有500个样本 每3个为一组
样本1. A1, B1, C1
样本2. A2, B2, C2
样本3. A3, B3, C3
...
样本500. A4, B4, C4

给出训练集保证 Similarities(A, B) > Similarities(A, C)
A和B 的相似度 > A和B 的相似度

要求训练一个模型 用于测试集 来求出每一列 AB 和 AC 哪个相似度更高

目前baseline是用jieba 对测集进行了处理,然后转换成list
然后将 整个数据集用tfidfvectorizer 训练
tfidf_model = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b").fit(data)

将每一行的A B C 转化成矩阵
a= sparse_result = tfidf_model.transform(A )
b= sparse_result = tfidf_model.transform(B)
c= sparse_result = tfidf_model.transform(C )

分别把 矩阵a 和 b c 相加对比
v1 = np.sum(np.dot(a, np.transpose(b)))
v2 = np.sum(np.dot(a, np.transpose(c)))

目前没有什么设计思路 求大神指点!

  • 写回答

0条回答 默认 最新

    报告相同问题?

    悬赏问题

    • ¥15 教务系统账号被盗号如何追溯设备
    • ¥20 delta降尺度方法,未来数据怎么降尺度
    • ¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet,要求快速高效
    • ¥15 再不同版本的系统上,TCP传输速度不一致
    • ¥15 高德地图点聚合中Marker的位置无法实时更新
    • ¥15 DIFY API Endpoint 问题。
    • ¥20 sub地址DHCP问题
    • ¥15 delta降尺度计算的一些细节,有偿
    • ¥15 Arduino红外遥控代码有问题
    • ¥15 数值计算离散正交多项式