野原新之楠 2019-06-07 22:06 采纳率: 80%
浏览 468

NLP 文本相似度匹配应如何设计流程

本人是nlp小白,目前做评测,对设计流程不是很懂
评测描述:
给出一个txt文本,里面有500个样本 每3个为一组
样本1. A1, B1, C1
样本2. A2, B2, C2
样本3. A3, B3, C3
...
样本500. A4, B4, C4

给出训练集保证 Similarities(A, B) > Similarities(A, C)
A和B 的相似度 > A和B 的相似度

要求训练一个模型 用于测试集 来求出每一列 AB 和 AC 哪个相似度更高

目前baseline是用jieba 对测集进行了处理,然后转换成list
然后将 整个数据集用tfidfvectorizer 训练
tfidf_model = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b").fit(data)

将每一行的A B C 转化成矩阵
a= sparse_result = tfidf_model.transform(A )
b= sparse_result = tfidf_model.transform(B)
c= sparse_result = tfidf_model.transform(C )

分别把 矩阵a 和 b c 相加对比
v1 = np.sum(np.dot(a, np.transpose(b)))
v2 = np.sum(np.dot(a, np.transpose(c)))

目前没有什么设计思路 求大神指点!

  • 写回答

0条回答 默认 最新

    报告相同问题?

    悬赏问题

    • ¥15 Stata 面板数据模型选择
    • ¥20 idea运行测试代码报错问题
    • ¥15 网络监控:网络故障告警通知
    • ¥15 django项目运行报编码错误
    • ¥15 请问这个是什么意思?
    • ¥15 STM32驱动继电器
    • ¥15 Windows server update services
    • ¥15 关于#c语言#的问题:我现在在做一个墨水屏设计,2.9英寸的小屏怎么换4.2英寸大屏
    • ¥15 模糊pid与pid仿真结果几乎一样
    • ¥15 java的GUI的运用