使用朴素贝叶斯进行交叉验证时解析不出文档

原代码

def textParse(bigString):
    import re
    listOfTokens =re.split(r'\W*',bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]
def spamTest():
    docList=[]; classList=[]; fullText=[]
    for i in range(1,25):
        #❶ （以下 七行） 导入 并解 析 文本 文件
        wordList = textParse(open('email/spam/%d.txt'%i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(open('email/spam/%d.txt'%i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)
    trainingSet = list(range(26)); testSet=[]
    #❷（ 以下 四行） 随机 构建 训练 集
    for i in range(10):
        randIndex = int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    trainMat=[]; trainClasses =[]
    for docIndex in trainingSet:
        trainMat.append(setOfWords2Vec(vocabList,docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V,p1V,pSpam = trainNB0(array(trainMat),array(trainClasses))
    errorCount = 0
    #❸（ 以下 四行） 对 测试 集 分类
    for docIndex in testSet:
        wordVector = setOfWords2Vec(vocabList,docList[docIndex])
        if classifyNB(array(wordVector),p0V,p1V,pSpam)!= classList[docIndex]:
            errorCount += 1
    print('the error rate is:',float(errorCount)/len(testSet))
    return wordList,docList,classList,fullText,vocabList,testSet,trainingSet

终端输出，解析结果是空的

>>> wordList,docList,classList,fullText,vocabList,testSet,trainingSet=bayes.spamTest()
the error rate is: 0.7
>>> wordList
[]
>>> docList
[[], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], [], []]
>>> classList
[1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0]
>>> fullText
[]

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dabocaiqq 2019-09-11 18:05
关注
https://www.jianshu.com/p/94ec02bcd663

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

请问贝叶斯、朴素贝叶斯、贝叶斯信息量哪种可以筛选特征变量 python r语言有问必答
2021-12-25 13:29

回答 1 已采纳一般用到是朴素贝叶斯方法，朴素贝叶斯算法是基于贝叶斯定理与特征条件独立性假设的分类方法，详细可以参考：https://blog.csdn.net/weixin_44020827/article/det
python如何将带标签的特征向量直接导入到朴素贝叶斯分类器中进行分类 python
2018-03-06 02:38

回答 4 已采纳数据文件是什么格式？txt csv？？。。。
引入朴素贝叶斯模型时，出现报错，该怎么解决？人工智能数据挖掘机器学习
2021-02-28 11:38

回答 1 已采纳 numpy在其最新版本中已弃用numpy.testing.nosetester，问题及解决方案见： https://qastack.cn/programming/59474533/modulenot
西瓜书重温(七): 贝叶斯分类器(手推+代码demo)
2022-06-24 19:15

翻滚的小@强的博客今天开始学习西瓜书第七章，有关贝叶斯分类器的基本知识，贝叶斯决策论是在概率框架下实施决策的基本方法，对分类任务，在所有相关概率已知时，贝叶斯决策论考虑如何基于概率和误判损失选择最优类别标记。...
基于朴素贝叶斯和sift特征的图像分类（Python） python 人工智能机器学习深度学习
2020-04-20 14:11

回答 1 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 看下这篇博客，也许你就懂了，链接：图像特征检测—SIFT算法应用（Python）如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助
Python朴素贝叶斯模型的应用问题 jupyter pycharm python
2021-10-13 10:19

回答 2 已采纳 jupyter 应该是命令行输入输出如果想在pycharm看到相应输出需添加print打印如:print(df.head()) 亦或者在pycharm中创建terminal来执行此py文件
用朴素贝叶斯分类对“训练集”进行预测，正确率没有100%，这正常吗分类
2021-12-25 18:04

回答 1 已采纳啊这，肯定正常啊，你训练都没有100%
长文！机器学习笔试精选 100 题【附详细解析】
2019-09-24 18:24

红色石头Will的博客点击上方“AI有道”，选择“置顶公众号”关键时刻，第一时间送达！机器学习是一门理论性和实战性都比较强的技术学科。在应聘机器学习相关工作岗位时，我们常常会遇到各种各样的机器...
机器学习朴素贝叶斯显示属性错误机器学习
2019-09-09 13:31

回答 2 已采纳找到了，O达成0了，改一下就行了
贝叶斯网络三种形式怎么理解人工智能机器学习
2022-02-09 10:27

回答 1 已采纳您可以参考https://blog.csdn.net/FRIGIDWINTER/article/details/115404656?spm=1001.2014.3001.5502我在其中进行了推导。此
贝叶斯模型和卷积神经网络啥关系人工智能数据挖掘机器学习神经网络自然语言处理
2019-03-28 15:45

回答 2 已采纳贝叶斯模型是一种基于概率的统计分析模型，用它可以构造单层的置信网络。卷积神经网络的特点是，在简化神经元连接的情况下，只有相邻的神经元的连结性被保留，所以适合图像识别这样的在几何上相邻坐标点存在局部
BAT机器学习面试1000题系列
2017-12-14 15:19

qinjianhuang的博客常见的判别模型有：K近邻、SVM、决策树、感知机、线性判别分析（LDA）、线性回归、传统的神经网络、逻辑斯蒂回归、boosting、条件随机场常见的生成模型有：朴素贝叶斯、隐马尔可夫模型、高斯混合模型、文档主题...
时间序列，贝叶斯方法职场和发展
2023-04-01 12:12

回答 2 已采纳当我们对时间序列进行结构断点检测时，我们通常会考虑使用贝叶斯方法。在这种方法中，我们使用一个先验概率分布来描述我们对结构断点个数的先验知识，然后通过观测数据来更新我们对结构断点个数的后验概率分布。最终
李宏毅机器学习—读书笔记
2021-10-21 17:25

studyeboy的博客 交叉验证 交叉验证 就是将训练集再分为两部分，一部分作为训练集，一部分作为验证集。用训练集训练模型，然后再验证集上比较，确定出最好的模型之后（比如模型3），再用全部的训练集训练模型3，然后再用public的...
机器学习面试题总结（转）
2018-11-25 18:17

weixin_30625691的博客常见的判别模型有：K近邻、SVM、决策树、感知机、线性判别分析（LDA）、线性回归、传统的神经网络、逻辑斯蒂回归、boosting、条件随机场常见的生成模型有：朴素贝叶斯、隐马尔可夫模型、高斯混合模型、文档主题...
没有解决我的问题, 去提问

悬赏问题

¥50 永磁型步进电机PID算法
¥15 sqlite 附加（attach database）加密数据库时，返回26是什么原因呢？
¥88 找成都本地经验丰富懂小程序开发的技术大咖
¥15 如何处理复杂数据表格的除法运算
¥15 如何用stc8h1k08的片子做485数据透传的功能？(关键词-串口)
¥15 有兄弟姐妹会用word插图功能制作类似citespace的图片吗？
¥200 uniapp长期运行卡死问题解决
¥15 latex怎么处理论文引理引用参考文献
¥15 请教：如何用postman调用本地虚拟机区块链接上的合约？
¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？

使用朴素贝叶斯进行交叉验证时解析不出文档

2条回答 默认 最新

悬赏问题

2条回答默认最新