中文分词的语料库中的词是如何的生成的?

我有多篇关于汽车类的文章,文章中多次提到"本田雅阁"关键词,再语料库中没有该词语的情况下分词,会被切分成"本田" / "雅阁",怎么在不使用人工添加情况下,把"本田雅阁"提取出来,存入语料库,为以后的分词提供有效语料库关键词呢?

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2019-05-13 09:11
关注
实用的方法是使用分词库，它结合了人工添加和修正的词汇。
单单从语言的角度看，可以用后缀数组的方式得到某个字符的前后字的字频，字频高的，就视作词汇。但是这个本身需要大量的语料和人工的调整。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

中文分词的语料库中的词是如何的生成的? 数据挖掘机器学习自然语言处理
2019-05-12 22:30

回答 1 已采纳实用的方法是使用分词库，它结合了人工添加和修正的词汇。单单从语言的角度看，可以用后缀数组的方式得到某个字符的前后字的字频，字频高的，就视作词汇。但是这个本身需要大量的语料和人工的调整。
中文语料库检索构式求助 nlp python
2022-12-07 10:42

回答 3 已采纳写了一个模板函数，望采纳下面为示例代码，需要你提供已经分词的语料库和对应的词性标注。 # 首先，我们需要定义一个函数，它接受一个分词后的语料库和一个词性格式作为参数，并返回满足该格式的所有词组。 d
谁能推荐可以“批量导入凌乱汉字后批量导出所有中文词语”的软件？中文分词
2018-11-09 03:50

回答 1 已采纳什么意思，就是给定一些汉字，然后排列组合，看能构成哪些词语？如果是，可以帮你写一个，思路是在你所有的汉字里，m选n（包括重复自己）组成2、3、4字，然后和字典比较，匹配的输出。字典你可以去下载
java写语料库分词,简单有效的多标准中文分词
2021-03-24 13:42

weixin_39586683的博客原标题：简单有效的多标准中文分词本文介绍一种简洁优雅的多标准中文分词方案，可联合多个不同标准的语料库训练单个模型，同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能，在10个语料库上的...
遇到一个随机抽取语料的程序中文分词
2022-08-13 11:19

回答 3 已采纳用法不是在你截图里有吗？中间那张图，你看下，写的很清楚，可以在cmd里执行
中文命名实体——语料处理 python 有问必答自然语言处理
2021-04-14 11:01

回答 4 已采纳 import re with open("输出文件.txt","w",encoding="utf-8") as outfile: with open("train.txt","r",enco
jupyter notebook运行代码找不到语料库文件 python 有问必答
2021-06-26 12:06

回答 5 已采纳没有那样的文件。。检查运行环境中是否存在那样的文件
英文维基百科语料库txt（5）
2022-03-10 15:15

- **人工智能**：AI开发人员可以借助语料库训练机器学习模型，实现智能对话系统、文本生成、知识图谱构建等任务。 - **语料库研究**：语言学家和数据科学家可以分析词汇的使用频率、句法结构、语篇模式等，以了解...
Python怎么删除文本中的所有标点符号？ nlp python
2015-04-15 13:53

回答 3 已采纳既然你要语料库，程序就不是必须的了，用ultraedit之类的工具，内置批量替换功能，运行下即可。
给定关键词使用类似GPT模型，AI生成一篇文章，是否可以让文章保持行业相关性？ nlp python 机器学习
2022-08-08 20:43

回答 1 已采纳只要你的样本都是这个行业的，进行训练，肯定是能保持行业相关性的，主要成本就是收集语料，现在开源的gpt或者bert的预训练非常多，建议楼主多从网上收集一些文章，要训的好，大概上千到上万的样本是比较合适
ICTCLAS分词系统的使用
2015-05-31 12:27

回答 1 已采纳 ICTCLAS分词系统可以高效地实现分词。下面把过程贴出来。使用方法，首先到网上下载ICTCLAS，因为我是windows下的C++实现，所以在http://ictclas.org/ictcla
英文维基百科语料库txt（9）
2022-03-10 15:33

标题中的“英文维基百科语料库txt（9）”指的是一个包含多个英文维基百科文本数据的压缩包，这些数据经过一系列预处理步骤，包括分词、去停用词、转换为小写、词干提取和词形还原，使得它们更适合用于自然语言处理...
如何抽取TXT中的特定格式文本内容？ python 数据挖掘正则表达式自然语言处理
2020-04-08 14:54

回答 2 已采纳 ``` str1='卷之一治诸风透冰丹内容：治一切风毒……卷之一治诸风龙脑天麻煎内容：治……' import re txt1=re.findall('(.*?)(.*?)内容',str1)
现代汉语语料库
2019-04-20 07:16

现代汉语语料库是语言学研究中的重要资源，主要用于深入理解和分析现代汉语的语言现象。它是由3500个常用汉字构成的大量文本数据集合，经过精心清洗和去重处理，确保了数据的质量和准确性。这个语料库包含了554,026...
使用唐诗语料库，经过去噪预处理、分词、生成搭配、生成主题等过程，生成唐诗.zip
2024-03-02 21:59

在IT行业中，尤其是在人工智能（AI）领域，数据预处理是一项至关重要的步骤，它对模型的训练效果有着显著影响。这个项目“使用唐诗语料库，经过去噪预处理、分词、生成搭配、生成主题等过程，生成唐诗.zip”就是这样...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
请采纳用户回复 6月30日

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

中文分词的语料库中的词是如何的生成的?

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新