如何建立自己的NLP训练模型

基于PYTHON开发一个NLP自然语言处理模型。最终结果希望能输入标题自动匹配相应的文本内容。
已经实现了语言素材的采集，采用GENSIM进行摘要和文本内容的匹配。现在的匹配算法有问题，匹配程度太低，给出的标题不能匹配到合适的文本，需要改进。

目前想法是自己建立人工智能训练模型，可以设置每个标题中不同关键词的优先级和先后顺序以及权重，然后不断人工进行标记和素材录入进行模型训练，来提升模型的精确性。需要帮助请大神支招！

具体流程是如何，采用什么模型？具体步骤是什么样的？



def CompareArticle1(ArticleSection,Articlesummary):
# 文本集和搜索词
    #texts = ['要深化大数据、人工智能等研发应用。当下，云计算、物联网、人工智能等技术飞速发展，并且在政务的“智能化”上发挥着日益重要的作用，要建设服务型政府，政务的“智能化”是必然方向。“互联网+政务服务”解决了信息采集、传输、监控等问题，能够促进各部门间数据共享，让群众和企业少跑腿、好办事、不添堵',


    #print(type(texts))
    texts=ArticleSection

# 1、将【文本集】生成【分词列表】
    texts = [lcut(text) for text in texts]
# 2、基于文本集建立【词典】，并获得词典特征数
    dictionary = Dictionary(texts)
    num_features = len(dictionary.token2id)
# 3.1、基于词典，将【分词列表集】转换成【稀疏向量集】，称作【语料库】
    corpus = [dictionary.doc2bow(text) for text in texts]
# 3.2、同理，用【词典】把【搜索词】也转换为【稀疏向量】
    kw_vector = dictionary.doc2bow(lcut(keyword))
# 4、创建【TF-IDF模型】，传入【语料库】来训练
    tfidf = TfidfModel(corpus)
# 5、用训练好的【TF-IDF模型】处理【被检索文本】和【搜索词】
    tf_texts = tfidf[corpus]  # 此处将【语料库】用作【被检索文本】
    tf_kw = tfidf[kw_vector]
# 6、相似度计算
    sparse_matrix = SparseMatrixSimilarity(tf_texts, num_features)
    similarities = sparse_matrix.get_similarities(tf_kw)
    #similarities = sparse_matrix.get_similarities(tf_texts)

    #print("类型")
    #print(similarities)
    #升序排列用于输出,不能重新排序会打乱原来的文本的位置。
    #similarities2= sorted(similarities,reverse=True) 
    #print(similarities2)
    #print(similarities)

    #print(sparse_matrix)
    #for e, s in enumerate(similarities, 2):
    #    print('kw 与 text%s说 相似度为：%.2f' % (e, s))
    return similarities

def find_sub_max(arr, n):
    NumIndex=0
    arr_=[]
    for i in range(n-1):
        arr_ = arr
        arr_[np.argmax(arr_)] = np.min(arr)
        arr = arr_
    NumIndex=np.argmax(arr_)
    print("# arr中第{}大的数为{}，位于第{}位".format(n,np.max(arr_), NumIndex))
    return NumIndex

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2020-03-18 18:54
关注
https://blog.csdn.net/weixin_34242331/article/details/91725050

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

想知道最新的New bing的语言模型版本人工智能自然语言处理语言模型
2023-03-09 21:01

回答 1 已采纳 Bing AI可能会利用微软深度学习框架中的预训练语言模型，例如Bert和GPT等。Bing AI也会结合自己的算法和数据集，不断优化和改进语言模型的性能，微软研究团队在不久前推出了最新的预训练语言模
Hugging Face下载NLP模型出错人工智能自然语言处理
2022-07-21 21:48

回答 1 已采纳用管理员模式运行 cmd 或者 powershell，然后再运行 jupyter 试试。或者开启开发者模式：https://consumer.huawei.com/en/support/conten
LSTM模型可以训练怎样的数据集？人工智能深度学习神经网络自然语言处理
2020-04-18 17:08

回答 1 已采纳 LSTM主要用来学习序列，并且序列的变化的影响因子和序列本身有关或者周期性波动。比如说文本预测，每天每周每年的销量别的也可以学，但是效果未必很好。
面向自然语言处理任务的预训练模型综述.pdf
2022-04-21 18:56

面向自然语言处理任务的预训练模型综述.pdf
NLP训练模型的时候报错：json.decoder.JSONDecodeError: Expecting value: line 3 column 1 (char 2) github 深度学习自然语言处理
2022-01-10 08:49

回答 2 已采纳 json 的格式需要这种{'key':'data'，‘key1':'data1','key2':123}不知道你的数据文件是什么内容。
2021年了，有哪些稳压bert和roberta的预训练模型？人工智能机器学习深度学习神经网络自然语言处理
2021-01-20 14:38

回答 1 已采纳 https://arxiv.org/abs/2106.11483
如何结合计算机视觉和自然语言处理还有3D建模，实现输入句子生成短视频 3D电影 3D模型？人工智能自然语言处理计算机视觉
2022-03-31 16:27

回答 1 已采纳给你道，要求能生成万物。
自然语言处理中文预训练模型-微博
2022-01-31 14:43

资源来自 https://github.com/Embedding/Chinese-Word-Vectors
一个中文长句子，使用Bret模型可以训练出来添加多个独立的标签吗？ bert 自然语言处理语言模型
2023-04-13 13:46

回答 2 已采纳 Bert模型可以用于训练多标签分类问题，也就是将一个文本样本分为多个标签类别。但是，对于一个中文长句子有多个含义的情况，需要先对句子进行分词，将其转换为一系列的词汇，然后针对每个词汇训练一个标签分类器
依据爬取的招聘信息建立机器学习模型数据挖掘深度学习自然语言处理
2022-12-10 10:47

回答 3 已采纳这不是看你要达到一个什么样的需求吗？举个例子，可以做职位匹配度预测模型，利用TextCNN或者Fasttext做职位匹配度预测，用户输入数据，然后利用它做职业推荐算法模型，用这个来做推广。我有过这方面
pytorch加载训练好的模型进行预测时，为什么又开始训练了 python 自然语言处理
2021-06-01 17:16

回答 2 已采纳因为你在run里的训练代码没有封装城函数，直接全局执行，import run.py 就开始xun lian le
基于NLP的预训练语言模型综述
2022-03-21 17:43

基于NLP的预训练语言模型综述
训练集效果比验证集效果差自然语言处理语言模型
2022-06-15 15:37

回答 1 已采纳这种情况要么就是模型本身参数设置和结构的问题，要么就是数据集少了，一般不会出现训练集比测试集还差
NLP：自然语言处理的预训练模型Pre-trained Models for NLP- A Survey
2022-04-21 14:37

自然语言处理的预训练模型 随着深度学习的发展，各种神经网络已广泛用于解决自然语言处理（NLP）任务，例如卷积神经网络（CNNs）[79、85、48]，递归神经网络（RNNs）[167、106] ]，基于图的神经网络（GNN）[153、168...
人工智能-项目实践-预训练-NLP实验：新词挖掘+预训练模型继续Pre-training.zip
2024-01-06 21:35

本项目是新词挖掘+预训练模型继续预训练：新词挖掘用到了两种方法，分别是基于频次的新词挖掘基于自由凝固度以及左右邻字熵的新词挖掘详细请看./data/新词挖掘.ipynb
没有解决我的问题, 去提问

悬赏问题

¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建
¥15 数据可视化Python
¥15 要给毕业设计添加扫码登录的功能！！有偿
¥15 kafka 分区副本增加会导致消息丢失或者不可用吗？
¥15 微信公众号自制会员卡没有收款渠道啊
¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘

如何建立自己的NLP训练模型

2条回答 默认 最新

悬赏问题

2条回答默认最新