词表到向量的转化对于加粗部分的错误

def loadDateSet():
    postingList=[['my','dog','has','flea','problems','help','please'],
                 ['maybe','not','take','him','to','dog','park','stupid'],
                 ['my','dalmation','is','so','cute','I','love','him'],
                 ['stop','posting','stupid','worthless','garbage'],
                 ['mr','licks','ate','my','steak','how','to','stop','him'],
                 ['quit','buying','worthless','dog','food','stupid']]
    classVec=[0,1,0,1,0,1]
    return postingList,classVec
def createVocabList(dataSet):
   ** vocabSet=set([])
    for document in dataSet:
        vocabSet=vocabSet | set(document)
        return list(vocabSet)**
listOPosts,listClasses = bayes.loadDateSet()
myVocabList=bayes.createVocabList(listOPosts)

print(myVocabList)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
大师兄6668 新星创作者: python技术领域 2023-07-17 17:54
关注
缩进有点问题吧，另外，我根据gpt的回答，整理了一下，你看下是否可以解决问题：
您提供的代码中，loadDateSet() 函数返回了一个包含文档列表 postingList 和类别向量 classVec 的元组。然后，createVocabList() 函数使用 dataSet 参数作为输入，并通过迭代文档列表来创建一个词汇表 vocabSet。

在您的代码中，createVocabList() 函数中标记为 ** 加粗的行 ** 是关键部分。该部分使用集合操作符 | 将每个文档中出现的单词添加到 vocabSet 中。最后，将 vocabSet 转换为列表并返回。

以下是修正后的代码示例：

def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'], ['stop', 'posting', 'stupid', 'worthless', 'garbage'], ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'], ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] classVec = [0, 1, 0, 1, 0, 1] return postingList, classVec def createVocabList(dataSet): vocabSet = set([]) for document in dataSet: vocabSet = vocabSet | set(document) return list(vocabSet) listOPosts, listClasses = loadDataSet() myVocabList = createVocabList(listOPosts) print(myVocabList)

现在，myVocabList 将包含词汇表的列表，并打印输出结果。请注意，修正后的代码中，createVocabList() 函数的返回缩进已更正，以确保在循环结束后才返回词汇表。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

自然语言处理入门——新手上路
2021-11-10 20:37

海伦•的博客我们国家语言文字工作委员会发布的《现代汉语常用词表（草案）》一共收录56 008个词条。除此之外，我们还可以随时创造各种类型的新词，而不仅限于名词。 2.结构化自然语言是非结构化的，而编程语言是结构化的。...
自然语言处理入门新手上路
2019-10-29 17:40

turingbooks的博客自然语言处理（Natural Language Processing，NLP）是一门融合了计算机科学、人工智能以及语言学的交叉学科，它们的关系如图 1-1 所示。这门学科研究的是如何通过机器学习等技术，让计算机学会处理人类语言，乃至...
51c大模型~合集128
2025-05-15 14:17

whaosoft-143的博客纵观计算机科学的发展历史，这一「随时清理」的理念早已渗透到几乎所有计算模型之中：从最早的图灵机模型中，已读写的磁带符号可以被覆盖或重写，直到现在高级编程语言中，垃圾回收机制会自动清理不再可达的内存单元...
DeepSeek 解析
2025-02-19 17:26

还是转转的博客兼容性 PPO可直接处理连续动作空间(如语言模型的词表选择)，适合生成式任务的强化学习。 PPO在训练过程中通常涉及多个模型的协同工作，共同完成策略优化工作。 Policy模型（Actor）：策略模型是PPO的基础，负责根据...
sklearn之各类朴素贝叶斯原理
2024-06-19 23:33

不会&编程的博客 x i ∣ Y ) P(x_{i}|Y) P(xi∣Y)了，即将求解连续型变量下某个点取值的概率问题，转化成了求解一个函数 f ( x ) f(x) f(x)在点 x i x_{i} xi上的取值的问题。令 f ( x ) f(x) f(x)服从高斯分布，用该 f ( x ) f...
shell 编程大全
2012-11-26 00:34

kiken_bastand的博客毫无疑问，UNIX/Linux最重要的软件之一就是shell，目前最流行的shell被称为Bash(Bourne Again Shell)，几乎所有的Linux和绝大部分的UNIX都可以使用Bash。作为系统与用户之间的交互接口，shell几乎是你在UNIX工作...
【Leetcode】精选算法top200道（二）
2022-08-15 15:34

lynn_Dai的博客 Your TicTacToe object will be instantiated and called as such: # obj = TicTacToe(n) # param_1 = obj.move(row,col,player) 360、有序转化数组给你一个已经排好序的整数数组 nums 和整数 a 、 b 、 c 。对于...
文本相似度
2019-03-30 13:38

stay_foolish12的博客对于相似性的度量其只有两种，0不相似，1相似，哪怕两个字符串只有一个字符不相等也是不相似，这在NLP的很多情况是无法使用的，所以下文我们就“软”的相似性的度量进行整理，而这些方法仅仅考虑了两个文本的字面...
shell学习资料：shell十三问
2013-04-24 16:59

zhouxf_cn的博客如下是一些变量设定时常见的错误： A= B ：不能有IFS 1A=B ：不能以数字开头 $A=B ：名称不能有$ a=B ：这跟a=b是不同的如下则是可以接受的设定： A=" B" ：IFS被关闭了(请参考前面的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月17日

词表到向量的转化对于加粗部分的错误

2条回答 默认 最新

问题事件

2条回答默认最新