本人是nlp小白,目前做评测,对设计流程不是很懂
评测描述:
给出一个txt文本,里面有500个样本 每3个为一组
样本1. A1, B1, C1
样本2. A2, B2, C2
样本3. A3, B3, C3
...
样本500. A4, B4, C4
给出训练集保证 Similarities(A, B) > Similarities(A, C)
A和B 的相似度 > A和B 的相似度
要求训练一个模型 用于测试集 来求出每一列 AB 和 AC 哪个相似度更高
目前baseline是用jieba 对测集进行了处理,然后转换成list
然后将 整个数据集用tfidfvectorizer 训练
tfidf_model = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b").fit(data)
将每一行的A B C 转化成矩阵
a= sparse_result = tfidf_model.transform(A )
b= sparse_result = tfidf_model.transform(B)
c= sparse_result = tfidf_model.transform(C )
分别把 矩阵a 和 b c 相加对比
v1 = np.sum(np.dot(a, np.transpose(b)))
v2 = np.sum(np.dot(a, np.transpose(c)))
目前没有什么设计思路 求大神指点!