关于#sentencepiece#的问题，如何解决？

#问题

#尝试了以下两种方法
（1）pip install sentencepiece
（2）uninstall transformers → pip install --no-cache-dir transformers sentencepiece → Use_fast= False like this: tokenizer = AutoTokenizer.from_pretrained(“XXXXX”, use_fast=False)

#结果
通通无效T_T，有时候真的想报警，jiu jiu hai zi 吧！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
社区专家-Monster-XH 2023-11-19 13:57
关注
1.首先先安装库

pip install sentencepiece

2.直接使用特定的tokenizer类，例如RobertaTokenizer，而不是AutoTokenizer

from transformers import RobertaTokenizer tokenizer = RobertaTokenizer.from_pretrained('model_name', use_fast=False)

将'model_name'替换为你实际要加载的模型名称。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

关于C++strcmp的问题 c++ c语言 vscode
2022-06-13 21:34

回答 2 已采纳运行结果如图，只贴了你需要的那部分，你需要明白，你开始给出来的代码，cin 每次都是按照空格分割，表示当前输入截止，无法帮你录入一个句子需要改成 getline，这个时候呢，还有个小问题，参考这里
关于文本序列化方法的问题 python 深度学习
2022-04-25 10:06

回答 1 已采纳 "./data/train"是用于训练的文件，你没有吗，后面是对路径进行切割修改
关于java的for循环相关问题（附代码） c语言 java
2020-12-16 13:25

回答 3 已采纳 sentence是一个String类型变量，sentences是数组，用数组中取出变量并显示,有几个变量循环几次。相当与 foreach(String sentence in sentences)
【问题解决】Linux下载安装sentencepiece库异常
2022-03-15 17:57

Joyce_Ff的博客我本意是想安装allennlp库，但是卡在sentencepiece长时间不动，所以又去找了下载安装sentencepiece的方法，结果安装sentencepiece库也有问题。首先，给出一个下载sentencepiece库的链接： sentencepiece · PyPI ...
#define
2017-09-12 23:48

回答 1 已采纳 https://www.baidu.com/link?url=kbBON4lY9A4ZxRl3nV6fvOZOVGxY0Wy1YafQGnETWWz2kVNWGzauHEPtt-8hm6gvV2Eia
如何加入字符串数组？
2018-04-06 14:59

回答 1 已采纳 Generally you will need a number of placeholders equal to the length of the slice you are passing
想要串入int吗？ [重复]
2018-08-22 14:45

回答 3 已采纳 You can use strconv.Itoa (or strconv.FormatInt if performance is critical) by simply converting th
大语言模型之十 SentencePiece
2023-09-17 16:48

shichaog的博客其目的是用一个有限的词表在token数量降到最低的情况下解决所有单词的分词，这是可能的，英文单词词根、词源以及时态等语法，这就意味着很多词都有着相同的部分，似然值的变化就是两个子词之间的互信息。
python问题求答案啊！急！ python 开发语言
2023-02-08 10:17

回答 4 已采纳 # 获取全部不同的字母个数 def get_diff_letter(input_str): return len(set(list(filter(str.isalpha, input_str)
求大神看看这个程序存字符串的时候问题出在哪里？
2017-01-12 10:43

回答 5 已采纳在while(){}的后面加一句sentence[i]='\0';就可以了。。。。。。
Mac M1芯片安装sentence-transformers报错：Failed to find sentencepiece pkg-config解决方法
2022-07-11 20:27

爱吃腰果的李小明的博客 Mac M1芯片安装sentence-transformers报错：Failed to find sentencepiece pkg-config解决方法
使用Sentencepiece +CNN进行文本分类
2020-11-23 14:06

烛之文的博客 Sentencepiece是google开源的文本Tokenzier工具，其主要原理是利用统计算法，在语料库中生成一个类似分词器的工具，外加可以将词token化的功能；对比开源的分词器，它会将频繁出现的字符串作为词，然后形成词库进行...
NLP--BPE、WordPiece、ULM、SentencePiece子词分词器总结【原理】
2023-04-14 19:16

故事挺秃然的博客子词解决了词汇量问题，并在很大程度上有助于减少模型参数的数量，子词有助于保持词汇更加平衡。
RuntimeError:Internal: src/sentencepiece_processor.cc(1101)model_proto-＞ParseFromArray(serialize解决方案
2023-04-25 12:48

爱编程的喵喵的博客本文主要介绍了RuntimeError: Internal: src/sentencepiece_processor.cc(1101) [model_proto->ParseFromArray(serialized.data(), serialized.size())]解决方案，希望对同学们有所帮助。文章目录 1. 问题描述 2....
大模型词表扩充必备工具SentencePiece
2023-06-24 12:52

u013250861的博客具体可参考Chinese-LLaMA-Alpaca在通用中文语料上基于sentencepiece训练的20K中文词表并与原版LLaMA模型的32K词表(HF实现LLaMA分词基于BBPE算法，底层调用的也是sentencepiece的方法)进行合并的。比如：在中文语料库...
Subwords Tokenizer方法介绍: BPE, Byte-level BPE, WordPiece, Unigram, SentencePiece
2022-10-19 15:39

ShawnXuu的博客 Subwords Tokenizer: BPE, Byte-level BPE, WordPiece, Unigram, SentencePiece。
LLM：SentencePiece（词表扩充必备工具）
2023-08-12 14:15

u013250861的博客具体可参考Chinese-LLaMA-Alpaca在通用中文语料上基于sentencepiece训练的20K中文词表并与原版LLaMA模型的32K词表(HF实现LLaMA分词基于BBPE算法，底层调用的也是sentencepiece的方法)进行合并的。比如：在中文语料库...
AI逻辑推理微调#Datawhale AI 夏令营
2024-08-01 17:33

yunfeng233364的博客 pip install sentencepiece==0.1.99 !pip install transformers_stream_generator==0.0.4 !pip install datasets==2.18.0 !pip install peft==0.10.0 !pip install openai==1.17.1 !pip install tqdm==4.64.1 !pip ...
自然语言模型（LM）之Tokenizer的介绍（3）--SentencePiece
2023-11-09 23:42

pyx1212的博客 SentencePiece是谷歌推出的子词开源工具包，它是把一个句子看作一个整体，再拆成片段，而没有保留天然的词语的概念。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月19日

悬赏问题

¥50 rk3588板端推理
¥50 opencv怎么去掉数字0中间的斜杠。
¥15 这种情况的伯德图和奈奎斯特曲线怎么分析？
¥50 paddleocr带斜线的0很容易识别成9
¥15 电子档案元素采集（tiff及PDF扫描图片）
¥15 flink-sql-connector-rabbitmq使用
¥15 zynq7015,PCIE读写延时偏大
¥15 使用spss做psm（倾向性评分匹配）遇到问题
¥20 vue+UEditor附件上传问题
¥15 想做个WPS的自动化代码，不知道能做的起不。

关于#sentencepiece#的问题，如何解决？

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新