jupyter notebook运行代码找不到语料库文件

jupyter notebook运行代码找不到txt语料库文件

# 此函数作用是对初始语料进行分词处理后，作为训练模型的语料
def cut_txt(old_file):
    import jieba
    global cut_file     # 分词之后保存的文件名
    cut_file = old_file + '_cut.txt'

    try:
        fi = open(old_file, 'r', encoding='utf-8')
    except BaseException as e:  # 因BaseException是所有错误的基类，用它可以获得所有错误类型
        print(Exception, ":", e)    # 追踪错误详细信息

    text = fi.read()  # 获取文本内容
    new_text = jieba.cut(text, cut_all=False)  # 精确模式
    str_out = ' '.join(new_text).replace('，', '').replace('。', '').replace('？', '').replace('！', '') \
        .replace('“', '').replace('”', '').replace('：', '').replace('…', '').replace('（', '').replace('）', '') \
        .replace('—', '').replace('《', '').replace('》', '').replace('、', '').replace('‘', '') \
        .replace('’', '')     # 去掉标点符号
    fo = open(cut_file, 'w', encoding='utf-8')
    fo.write(str_out)
    
def model_train(train_file_name, save_model_file):  # model_file_name为训练语料的路径,save_model为保存模型名
    from gensim.models import word2vec
    import gensim
    import logging
    # 模型训练，生成词向量
    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
    sentences = word2vec.Text8Corpus(train_file_name)  # 加载语料
    model = gensim.models.Word2Vec(sentences, size=200)  # 训练skip-gram模型; 默认window=5
    model.save(save_model_file)
    model.wv.save_word2vec_format(save_model_name + ".bin", binary=True)   # 以二进制类型保存模型以便重用

#下一模块

from gensim.models import word2vec
import os
import gensim

# if not os.path.exists(cut_file):    # 判断文件是否存在，参考：https://www.cnblogs.com/jhao/p/7243043.html
cut_txt('./The Heaven Sword and Dragon Saber By Jin Yong .txt')  # 须注意文件必须先另存为utf-8编码格式

save_model_name = 'The Heaven Sword and Dragon Saber By Jin Yong.model'
if not os.path.exists(save_model_name):     # 判断文件是否存在
    model_train(cut_file, save_model_name)
else:
    print('此训练模型已经存在，不用再次训练')

# 加载已训练好的模型
model_1 = word2vec.Word2Vec.load(save_model_name)
# 计算两个词的相似度/相关程度
y1 = model_1.similarity("赵敏", "韦一笑")
print(u"赵敏和韦一笑的相似度为：", y1)
print("-------------------------------\n")

# 计算某个词的相关词列表
y2 = model_1.most_similar("张三丰", topn=10)  # 10个最相关的
print(u"和张三丰最相关的词有：\n")
for item in y2:
    print(item[0], item[1])
print("-------------------------------\n")

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-Time 2021-06-26 12:12
关注
没有那样的文件。。检查运行环境中是否存在那样的文件

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

jupyter notebook运行代码找不到语料库文件 python 有问必答
2021-06-26 12:06

回答 5 已采纳没有那样的文件。。检查运行环境中是否存在那样的文件
有没有非专业能用的爬虫工具，写论文找不到语料了 python 全文检索新浪微博有问必答
2022-03-23 20:18

回答 2 已采纳八爪鱼很好用，适合对爬虫不了解的小白
中文语料库检索构式求助 nlp python
2022-12-07 10:42

回答 3 已采纳写了一个模板函数，望采纳下面为示例代码，需要你提供已经分词的语料库和对应的词性标注。 # 首先，我们需要定义一个函数，它接受一个分词后的语料库和一个词性格式作为参数，并返回满足该格式的所有词组。 d
Transformer-Chatbot：受Movie-Dialogs语料库训练的Transformer聊天机器人
2021-02-09 04:29

1. 数据预处理脚本（如Python代码，用于清洗和处理Movie-Dialogs语料库） 2. Transformer模型的实现（可能使用TensorFlow或PyTorch框架） 3. 训练和评估脚本（用于运行模型训练并进行性能验证） 4. Jupyter Notebook...
Python以行数写入txt，并自动创建TXT文件 list python 有问必答
2022-01-23 11:39

回答 3 已采纳参考一下简单示例： l=['abc','def','ghi','jkl','mno','pqr','stu','vwx','yza','bcd','efg','hij','klm','nop'] fo
Python with open打开的文件内容与保存的内容不符 json python
2022-01-10 15:50

回答 3 已采纳你在将抓取的内容放入json文件的时候模式用a+, a+追加写, w+会清空文件重新写; 有用记得点个采纳
求写个python代码 python
2022-11-05 10:24

回答 4 已采纳 import random words = ['hello', 'word', 'python'] # 语料库，可以选择从文件读取， text = ['hello, how are you',
Data-Analysis-and-Visualization:资源和代码文件，用于学习Python中的数据分析，可视化，机器学习和NLP
2021-05-19 09:54

通过Jupyter Notebook，你可以逐个单元格运行代码，实时查看结果，并且可以方便地组织和注释代码，使得整个分析过程更加透明和易于理解。此外，这个资源可能还涉及到了机器学习，这是人工智能的一个分支，专注于...
怎么通过Python爬虫来制造一个语料 python 有问必答深度学习爬虫
2021-12-02 11:15

回答 2 已采纳你只能通过爬虫去爬取别人发上网的语料，每个自然语言的模块语料格式都不相同，一般官方都会提供
中文分词的语料库中的词是如何的生成的? 数据挖掘机器学习自然语言处理
2019-05-12 22:30

回答 1 已采纳实用的方法是使用分词库，它结合了人工添加和修正的词汇。单单从语言的角度看，可以用后缀数组的方式得到某个字符的前后字的字频，字频高的，就视作词汇。但是这个本身需要大量的语料和人工的调整。
Python怎么删除文本中的所有标点符号？ nlp python
2015-04-15 13:53

回答 3 已采纳既然你要语料库，程序就不是必须的了，用ultraedit之类的工具，内置批量替换功能，运行下即可。
python剪切文件到另外路径_python剪切文件
2021-01-15 00:37

蓝狍的博客我用斜杠加粗表示，以便各位阅读~)一般情况下，centos系统是自带python的，但是默认的python版本比较老，是2.6.6，于是就可以去官网下载最新的3.5,不要要注意的是，3.5是貌似不支持lxml模块，反正我在windows下找了...
自定义神经网络保存为h5文件 keras python tensorflow
2023-04-16 13:40

回答 2 已采纳努力の小熊结合了最新版本ChatGPT4.0的回答：将自定义神经网络模型保存为h5文件在这种情况下可能不是最佳选择，因为h5文件存储对于具有自定义层和训练逻辑的模型可能不适用。不过，你可以使用 Ten
34 个 Python 办公自动化工具库_python 办公工具
2024-04-26 19:10

2401_84592149的博客 SnowNLP 是一个 python 写的类库，可以方便的处理中文文本内容，是受到了 TextBlob 的启发而写的，由于现在大部分的自然语言处理库基本都是针对英文的，于是写了一个方便处理中文的类库，并且和 TextBlob 不同的是，...
text-cleaning:一些简短的脚本，用于清理流行的数字人文资源库中的文本
2021-04-03 23:37

Jupyter Notebook支持多种编程语言（如Python），提供了交互式的代码编辑、运行和展示功能，适合进行数据预处理工作。通过导入相应的库（如nltk、re、pandas等），可以轻松实现上述文本清洗操作。例如，使用Python...
没有解决我的问题, 去提问

悬赏问题

¥15 网络科学导论，网络控制
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）

jupyter notebook运行代码找不到语料库文件

5条回答 默认 最新

悬赏问题

5条回答默认最新