NLP 文本相似度匹配应如何设计流程

本人是nlp小白，目前做评测，对设计流程不是很懂
评测描述：
给出一个txt文本，里面有500个样本每3个为一组
样本1. A1， B1, C1
样本2. A2， B2, C2
样本3. A3， B3, C3
...
样本500. A4， B4, C4

给出训练集保证 Similarities(A, B) > Similarities(A, C)
A和B 的相似度 > A和B 的相似度

要求训练一个模型用于测试集来求出每一列 AB 和 AC 哪个相似度更高

目前baseline是用jieba 对测集进行了处理，然后转换成list
然后将整个数据集用tfidfvectorizer 训练
tfidf_model = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b").fit(data)

将每一行的A B C 转化成矩阵
a= sparse_result = tfidf_model.transform(A )
b= sparse_result = tfidf_model.transform(B)
c= sparse_result = tfidf_model.transform(C )

分别把矩阵a 和 b c 相加对比
v1 = np.sum(np.dot(a, np.transpose(b)))
v2 = np.sum(np.dot(a, np.transpose(c)))

目前没有什么设计思路求大神指点！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

自然语言处理关于文本匹配方法 python 自然语言处理
2020-07-09 18:20

回答 1 已采纳 https://blog.csdn.net/ling620/article/details/95468908
Python英语文本分析怎么匹配不同时态的单词 list python 自然语言处理
2022-05-02 13:43

回答 1 已采纳可以安装第三方分词模块，比如nltk可以实现规则动词的时态原型转换。下面是用法，打印出going的原型go from nltk.stem import SnowballStemmer trans =
NLP文本匹配问题的本质是不是对于要预测的句子，遍历候选句子从训练数据集里寻找最相似的pair？自然语言处理
2021-07-21 09:15

回答 1 已采纳可以这么理解
人工智能-项目实践-预训练-Bert预训练模型fine-tune计算文本相似度.zip
2024-01-06 21:27

Bert预训练模型fine-tune计算文本相似度 运行 ./sentence_similarity_Bert/examples/run_classifier_modify2 进行fine-tune 训练数据集为蚂蚁金服文本匹配的数据在chinese_data文件夹内运行run_classifier_...
想知道自然语言处理分词时如何如何抉择正向最大匹配、逆向最大匹配和双向最大匹配自然语言处理
2023-01-18 07:48

回答 2 已采纳首先我们要明白：正向最大匹配是采用从左到右的方式，从句子中抽取一个子串作为一块词；逆向最大匹配是采用从右到左的方式，从句子中抽取一个子串作为一块词；而双向最大匹配是采用正向最大匹配和逆向最大匹配的结合
求毕设程序设计，人工智能NLP方向 python
2022-12-29 15:02

回答 3 已采纳我只能给你点思路，兄弟获取训练数据：首先，你需要准备一份带有情感标注的对话数据，用来训练你的机器人。这些数据可以是真实的人类对话，也可以是人工生成的对话。构建模型：其次，你需要构建一个深度学习
如何写一个通用人工智能软件？人工智能深度学习自然语言处理
2022-03-31 15:18

回答 4 已采纳目前我们还达不到强人工智能，你说的这些暂时还没有办法实现。
自然语言处理实战项目4-文本相似度的搜索功能，搜索文本内容
2023-04-19 11:07

微学AI的博客大家好，我是微学AI，今天给大家带来自然语言处理实战项目4-文本相似度的搜索功能，搜索文本内容。文本相似度搜索是一种基于自然语言处理技术，用于搜索和匹配文本内容的方法。其主要目的是将用户输入的查询内容与已...
请问我这个python设计(文本分析)该用到哪些库呢 list python 自然语言处理
2022-04-30 17:37

回答 3 已采纳一般就用到匹配，计数相关的库，再加上文件读取相关的库。其实，很多库都是你使用过程中才发现要用的，详细可私我
如何结合计算机视觉和自然语言处理还有3D建模，实现输入句子生成短视频 3D电影 3D模型？人工智能自然语言处理计算机视觉
2022-03-31 16:27

回答 1 已采纳给你道，要求能生成万物。
python 大量文本数据预处理（NLP），跑的很慢，是否可以用上GPU加速 linux python 有问必答自然语言处理
2022-02-24 11:25

回答 3 已采纳可以用啊，判断GPU是否可用，否则使用cpu device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
文本相似度匹配-task1
2023-02-01 09:43

lauqasim的博客文本相似度匹配-task1
如何实现自然语言处理？制作一个3D游戏，内含所有的名词，形容词，动词，副词。实现输入一句话，就显示一个3D动画。语言变3D电影 python 人工智能自然语言处理
2022-03-31 18:41

回答 5 已采纳首先，你的3D模型必须自成一库，切含括绝大多数的普遍性物体和生命，亦或者将思路转化为像人物捏脸一般，通过输入的字段，通过神经网络比对和深入后返回的物体的一切特征，然后进行捏脸环节的拼接，元素化地生成每
【打卡-Coggle竞赛学习2023年1月】文本相似度匹配
2023-01-31 22:56

irrationality的博客文本语义匹配是自然语言处理中一个重要的基础问题，NLP 领域的很多任务都可以抽象为文本匹配任务。例如，信息检索可以归结为查询项和文档的匹配，问答系统可以归结为问题和候选答案的匹配，对话系统可以归结为对话和...
自然语言处理——文本相似度
2020-03-28 19:20

ZNWhahaha的博客在自然语言处理的学习和研究中，有好多问题涉及到如何检测两个文本的相似度问题，尤其是在度量句子或者短语之间的相似度。测算度量文本相似度的方法大体有三种：基于关键词匹配的传统方法、基于向量空间的方法和...
没有解决我的问题, 去提问

悬赏问题

¥15 教务系统账号被盗号如何追溯设备
¥20 delta降尺度方法，未来数据怎么降尺度
¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet，要求快速高效
¥15 再不同版本的系统上，TCP传输速度不一致
¥15 高德地图点聚合中Marker的位置无法实时更新
¥15 DIFY API Endpoint 问题。
¥20 sub地址DHCP问题
¥15 delta降尺度计算的一些细节，有偿
¥15 Arduino红外遥控代码有问题
¥15 数值计算离散正交多项式

码龄粉丝数原力等级 --

NLP 文本相似度匹配应如何设计流程

0条回答默认最新

悬赏问题

NLP 文本相似度匹配应如何设计流程

0条回答 默认 最新

悬赏问题

0条回答默认最新