m0_57965808 2022-01-08 12:09 采纳率: 90.9%
浏览 89
已结题

深度学习方面分词的问题

问题遇到的现象和发生背景

从GITHUB下载了一个可以生成中文文本的项目:https://github.com/Morizeyao/GPT2-Chinese来学习,前几天一直在研究代码,今天想试试生成文本来着,但是报错了。

问题相关代码,请勿粘贴截图

python F:\GTP\GPT-Chinese\GPT2-Chinese-old_gpt_2_chinese_before_2021_4_22\generate.py --length=50 --nsamples=4 --prefix=[CLS]你好--fast_pattern --save_samples --save_samples_path=./text

运行结果及报错内容

ValueError: Can't find a vocabulary file at path 'cache/vocab_small.txt'. To load the vocabulary from a Google pretrained model use tokenizer = BertTokenizer.from_pretrained(PRETRAINED_MODEL_NAME)

我的解答思路和尝试过的方法

我看了一下我的 'cache/vocab_small.txt',发现应该已经分好词了呀,如图:

img

我想要达到的结果

望各位有识之士不吝赐教

  • 写回答

1条回答 默认 最新

  • YirongChen 2022-01-09 03:36
    关注

    报错的原因是没找到"cache/vocab_small.txt"文件,这是因为你没有跑到项目的路径下去运行代码。

    切换到这个位置下运行代码,应该就不会报错了

    F:\GTP\GPT-Chinese\GPT2-Chinese-old_gpt_2_chinese_before_2021_4_22\
    

    或者在代码中指定vocab文件的绝对路径为:"F:/GTP/GPT-Chinese/GPT2-Chinese-old_gpt_2_chinese_before_2021_4_22/cache/vocab_small.txt"

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 1月17日
  • 已采纳回答 1月9日
  • 创建了问题 1月8日

悬赏问题

  • ¥15 优质github账号直接兑换rmb,感兴趣伙伴可以私信
  • ¥15 错误(10048): “调用exui内部功能”库命令的参数“参数4”不能接受空数据。怎么解决啊
  • ¥15 安装svn网络有问题怎么办
  • ¥15 Python爬取指定微博话题下的内容,保存为txt
  • ¥15 vue2登录调用后端接口如何实现
  • ¥65 永磁型步进电机PID算法
  • ¥15 sqlite 附加(attach database)加密数据库时,返回26是什么原因呢?
  • ¥88 找成都本地经验丰富懂小程序开发的技术大咖
  • ¥15 如何处理复杂数据表格的除法运算
  • ¥15 如何用stc8h1k08的片子做485数据透传的功能?(关键词-串口)