深度学习方面分词的问题

问题遇到的现象和发生背景

从GITHUB下载了一个可以生成中文文本的项目：https://github.com/Morizeyao/GPT2-Chinese来学习，前几天一直在研究代码，今天想试试生成文本来着，但是报错了。

问题相关代码，请勿粘贴截图

python F:\GTP\GPT-Chinese\GPT2-Chinese-old_gpt_2_chinese_before_2021_4_22\generate.py --length=50 --nsamples=4 --prefix=[CLS]你好--fast_pattern --save_samples --save_samples_path=./text

运行结果及报错内容

ValueError: Can't find a vocabulary file at path 'cache/vocab_small.txt'. To load the vocabulary from a Google pretrained model use tokenizer = BertTokenizer.from_pretrained(PRETRAINED_MODEL_NAME)

我的解答思路和尝试过的方法

我看了一下我的 'cache/vocab_small.txt'，发现应该已经分好词了呀，如图：

我想要达到的结果

望各位有识之士不吝赐教

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
YirongChen 2022-01-09 03:36
关注
报错的原因是没找到"cache/vocab_small.txt"文件，这是因为你没有跑到项目的路径下去运行代码。

切换到这个位置下运行代码，应该就不会报错了

F:\GTP\GPT-Chinese\GPT2-Chinese-old_gpt_2_chinese_before_2021_4_22\

或者在代码中指定vocab文件的绝对路径为："F:/GTP/GPT-Chinese/GPT2-Chinese-old_gpt_2_chinese_before_2021_4_22/cache/vocab_small.txt"
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 2
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

深度学习方面分词的问题 github python 深度学习
2022-01-08 12:09

回答 1 已采纳报错的原因是没找到"cache/vocab_small.txt"文件，这是因为你没有跑到项目的路径下去运行代码。切换到这个位置下运行代码，应该就不会报错了 F:\GTP\GPT-Chinese\GP
实现bigram分词系统的python代码 python 中文分词
2023-03-28 19:25

回答 1 已采纳实现bigram分词系统可以使用Python中的基础字符串处理函数和一些基本的数据结构。下面是一个简单的实现过程：定义一个词典：可以将一个包含大量单词的文本文件读入一个列表中，每个单词作为列表的一个
Python的jieba库输出全部分词哪里出了问题 python
2022-06-02 11:36

回答 1 已采纳代码没错，只是你输出的内容错了可以参考 jieba.cut与jieba.lcut的区别_blackieliu的博客-CSDN博客_jieba.cut
基于LSTM和CRF的深度学习中文分词python源码+文档说明
2024-02-15 00:45

基于LSTM和CRF的深度学习中文分词python源码+文档说明 - 不懂运行，下载完可以私聊问，可远程教学该资源内项目源码是个人的毕设，代码都测试ok，都是运行成功后才上传资源，答辩评审平均分达到96分，放心下载使用！...
政府工作报告进行分词 Python python
2021-12-12 15:26

回答 2 已采纳参考这个例子应该能解决你的需求 https://blog.csdn.net/xiexf189/article/details/77477283
python实现中文分词，jieba库实现中文分词自然语言处理
2022-11-24 22:45

回答 1 已采纳这是详细的教程https://blog.csdn.net/weixin_44095417/article/details/121146386
python词云出现KeyError问题 python 有问必答
2021-03-19 16:53

回答 3 已采纳就代码中词云图问题，一是代码中wordlist是一个生成器对象，需要遍历出来，文本分割是全分割，其中有很多标点符号和其他字符不是中文，需要对其进行筛选剔除。wl=' '.join([x for x i
基于深度学习的中文分词算法.zip
2024-02-19 13:14

人工智能-项目实践-深度学习
关于C++中嵌入python 结巴分词 c++ python
2016-05-26 07:15

回答 4 已采纳注意py脚本中不要有print 会终止脚本，unicode类型转str的话，用encode('gbk')
Python二级题库，分词问题，问题我写在书上了，请大佬们指点一下 python
2021-03-23 09:43

回答 2 已采纳问题1描述的问题是统计《卖火柴的小女孩》故事中的出现频次最高的字符及其出现的频率，所以是不需要用到结巴分词的。
机器学习去除停用词问题 sklearn 机器学习
2022-10-25 13:23

回答 1 已采纳 data是个表啊for word in data:word是个行吗？
基于LSTM和CRF的深度学习中文分词源码（python）.zip
2024-01-16 00:24

1、该资源内项目代码经过严格调试，下载即用确保可以运行！ 2、该资源适合计算机相关专业(如计科、人工智能、大数据、数学、电子信息等)正在做课程设计、期末大...基于LSTM和CRF的深度学习中文分词源码（python）.zip
用python实现tf-idf值计算相关问题 python 自然语言处理
2022-04-19 20:14

回答 1 已采纳建议把代码上传上来，而不是发个截图。不然没人看的。
基于深度学习的分词模块,对新闻的准确率高达96%+.zip
2024-02-18 20:10

人工智能-项目实践-深度学习
毕设&课程作业_基于LSTM和CRF的深度学习中文分词.zip
2024-01-16 16:54

计算机类毕设&课程作业
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月8日

悬赏问题

¥15 优质github账号直接兑换rmb，感兴趣伙伴可以私信
¥15 错误(10048): “调用exui内部功能”库命令的参数“参数4”不能接受空数据。怎么解决啊
¥15 安装svn网络有问题怎么办
¥15 Python爬取指定微博话题下的内容，保存为txt
¥15 vue2登录调用后端接口如何实现
¥65 永磁型步进电机PID算法
¥15 sqlite 附加（attach database）加密数据库时，返回26是什么原因呢？
¥88 找成都本地经验丰富懂小程序开发的技术大咖
¥15 如何处理复杂数据表格的除法运算
¥15 如何用stc8h1k08的片子做485数据透传的功能？(关键词-串口)