jupyter notebook运行代码找不到语料库文件

jupyter notebook运行代码找不到txt语料库文件

# 此函数作用是对初始语料进行分词处理后，作为训练模型的语料
def cut_txt(old_file):
    import jieba
    global cut_file     # 分词之后保存的文件名
    cut_file = old_file + '_cut.txt'

    try:
        fi = open(old_file, 'r', encoding='utf-8')
    except BaseException as e:  # 因BaseException是所有错误的基类，用它可以获得所有错误类型
        print(Exception, ":", e)    # 追踪错误详细信息

    text = fi.read()  # 获取文本内容
    new_text = jieba.cut(text, cut_all=False)  # 精确模式
    str_out = ' '.join(new_text).replace('，', '').replace('。', '').replace('？', '').replace('！', '') \
        .replace('“', '').replace('”', '').replace('：', '').replace('…', '').replace('（', '').replace('）', '') \
        .replace('—', '').replace('《', '').replace('》', '').replace('、', '').replace('‘', '') \
        .replace('’', '')     # 去掉标点符号
    fo = open(cut_file, 'w', encoding='utf-8')
    fo.write(str_out)
    
def model_train(train_file_name, save_model_file):  # model_file_name为训练语料的路径,save_model为保存模型名
    from gensim.models import word2vec
    import gensim
    import logging
    # 模型训练，生成词向量
    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
    sentences = word2vec.Text8Corpus(train_file_name)  # 加载语料
    model = gensim.models.Word2Vec(sentences, size=200)  # 训练skip-gram模型; 默认window=5
    model.save(save_model_file)
    model.wv.save_word2vec_format(save_model_name + ".bin", binary=True)   # 以二进制类型保存模型以便重用

#下一模块

from gensim.models import word2vec
import os
import gensim

# if not os.path.exists(cut_file):    # 判断文件是否存在，参考：https://www.cnblogs.com/jhao/p/7243043.html
cut_txt('./The Heaven Sword and Dragon Saber By Jin Yong .txt')  # 须注意文件必须先另存为utf-8编码格式

save_model_name = 'The Heaven Sword and Dragon Saber By Jin Yong.model'
if not os.path.exists(save_model_name):     # 判断文件是否存在
    model_train(cut_file, save_model_name)
else:
    print('此训练模型已经存在，不用再次训练')

# 加载已训练好的模型
model_1 = word2vec.Word2Vec.load(save_model_name)
# 计算两个词的相似度/相关程度
y1 = model_1.similarity("赵敏", "韦一笑")
print(u"赵敏和韦一笑的相似度为：", y1)
print("-------------------------------\n")

# 计算某个词的相关词列表
y2 = model_1.most_similar("张三丰", topn=10)  # 10个最相关的
print(u"和张三丰最相关的词有：\n")
for item in y2:
    print(item[0], item[1])
print("-------------------------------\n")

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-Time 2021-06-26 12:12
关注
没有那样的文件。。检查运行环境中是否存在那样的文件

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

jupyter notebook运行代码找不到语料库文件 python 有问必答
2021-06-26 12:06

回答 5 已采纳没有那样的文件。。检查运行环境中是否存在那样的文件
有没有非专业能用的爬虫工具，写论文找不到语料了 python 全文检索新浪微博有问必答
2022-03-23 20:18

回答 2 已采纳八爪鱼很好用，适合对爬虫不了解的小白
中文语料库检索构式求助 nlp python
2022-12-07 10:42

回答 3 已采纳写了一个模板函数，望采纳下面为示例代码，需要你提供已经分词的语料库和对应的词性标注。 # 首先，我们需要定义一个函数，它接受一个分词后的语料库和一个词性格式作为参数，并返回满足该格式的所有词组。 d
python剪切文件到另外路径_python剪切文件
2021-01-15 00:37

蓝狍的博客我用斜杠加粗表示，以便各位阅读~)一般情况下，centos系统是自带python的，但是默认的python版本比较老，是2.6.6，于是就可以去官网下载最新的3.5,不要要注意的是，3.5是貌似不支持lxml模块，反正我在windows下找了...
Python以行数写入txt，并自动创建TXT文件 list python 有问必答
2022-01-23 11:39

回答 3 已采纳参考一下简单示例： l=['abc','def','ghi','jkl','mno','pqr','stu','vwx','yza','bcd','efg','hij','klm','nop'] fo
Python with open打开的文件内容与保存的内容不符 json python
2022-01-10 15:50

回答 3 已采纳你在将抓取的内容放入json文件的时候模式用a+, a+追加写, w+会清空文件重新写; 有用记得点个采纳
求写个python代码 python
2022-11-05 10:24

回答 4 已采纳 import random words = ['hello', 'word', 'python'] # 语料库，可以选择从文件读取， text = ['hello, how are you',
jupyterhub-python-文本分类
2022-06-15 00:30

code-lan的博客 ##本文加载语料库，并对语料库进行文本分类。使用语言：python，环境：jupyterhub。本文使用的是NLTK库。
怎么通过Python爬虫来制造一个语料 python 有问必答深度学习爬虫
2021-12-02 11:15

回答 2 已采纳你只能通过爬虫去爬取别人发上网的语料，每个自然语言的模块语料格式都不相同，一般官方都会提供
中文分词的语料库中的词是如何的生成的? 数据挖掘机器学习自然语言处理
2019-05-12 22:30

回答 1 已采纳实用的方法是使用分词库，它结合了人工添加和修正的词汇。单单从语言的角度看，可以用后缀数组的方式得到某个字符的前后字的字频，字频高的，就视作词汇。但是这个本身需要大量的语料和人工的调整。
Python怎么删除文本中的所有标点符号？ nlp python
2015-04-15 13:53

回答 3 已采纳既然你要语料库，程序就不是必须的了，用ultraedit之类的工具，内置批量替换功能，运行下即可。
超实用！精选34个Python自动化库！
2023-03-05 11:31

程序IT圈的博客本次内容涵盖了Excel、Word、PPT、ODF、PDF、邮件、微信、文件处理等所有能在办公场景实现自动化的库，希望能够对大家有所帮助。PythonExcel自动化库// 1.xlwings 库官网：https://www.xlwings.org/特点：xlwings 是...
自定义神经网络保存为h5文件 keras python tensorflow
2023-04-16 13:40

回答 2 已采纳努力の小熊结合了最新版本ChatGPT4.0的回答：将自定义神经网络模型保存为h5文件在这种情况下可能不是最佳选择，因为h5文件存储对于具有自定义层和训练逻辑的模型可能不适用。不过，你可以使用 Ten
python中结巴分词思路解析-含代码实战
2020-02-07 14:37

青风learing的博客本文代码均在jupyter Notebook上运行，已安装jieba包结巴常用的函数结巴常用函数作用 jieba.lcut(text) 对text文件内容进行分词，返回的是分词后的词语列表 jieba.load_userdic(txt_file) 为防止某些...
超实用，精选34个Python自动化库
2022-12-03 23:01

Python数据开发的博客本次内容涵盖了Excel、Word、PPT、ODF、PDF、邮件、微信、文件处理等所有能在办公场景实现自动...通过 Python 脚本或 Jupyter notebook 自动化 Excel，通过宏从 Excel 调用 Python，并编写用户定义的函数（UDF 仅适用于
没有解决我的问题, 去提问

悬赏问题

¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂
¥15 wordpress 产品图片 GIF 没法显示
¥15 求三国群英传pl国战时间的修改方法
¥15 matlab代码代写，需写出详细代码，代价私
¥15 ROS系统搭建请教（跨境电商用途）

jupyter notebook运行代码找不到语料库文件

5条回答 默认 最新

悬赏问题

5条回答默认最新