Python的程序运行后结果全都一致

在运行后所有的结果都是spam:false，请给出解决方案并改正原程序编码

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-06-19 11:55
关注
引自免费微信小程序：皆我百晓生

从描述来看，问题在于垃圾邮件检测算法似乎对所有测试邮件都判定为非垃圾邮件（False）。这可能由几个因素导致，包括数据预处理、特征提取、以及决策阈值的设定等。下面是一个改进方案，旨在提高算法的准确性。

首先，让我们检查clean_text函数中的正则表达式错误。原始代码中，re.sub(r'\W+',",text).lower()这一行实际上应该替换掉非字母数字字符，并且看起来像是一个语法错误。正确的实现应该是使用\s来替换匹配到的非单词字符，但考虑到我们想要移除这些字符而不是替换为特定字符，我们可以直接删除它们。修改后的clean_text函数如下：

def clean_text(text): # 清洗文本，移除特殊字符并转换成为小写 import re return re.sub(r'\W+', ' ', text).lower()

接下来，观察calculate_rate函数，其计算方式可能过于简化，导致分类不准确。为了改进这一点，我们可以调整计算频率的方式，比如使用平滑技术来避免零频率问题，这可以通过给每个单词添加一个小的常数来实现。

此外，决策阈值0.5可能不适合当前的数据集。调整这个阈值或采用更复杂的分类策略，比如基于概率的分类，可能会提高准确性。

以下是修改后的完整代码：

import re from collections import Counter def clean_text(text): # 清洗文本，移除特殊字符并转换成为小写 return re.sub(r'\W+', ' ', text).lower() def tokenize(text): # 将文本分割成单词列表 return text.split() def word_freq(words): # 计算单词频率 return Counter(words) def calculate_rate(freq, spam_words): # 计算给定词汇在词频中的频率，使用拉普拉斯平滑 total = sum(freq.values()) n = len(freq) rate = sum((freq[word] + 1) / (total + n) for word in spam_words if word in freq) return rate spam_emails = [ "Get rich quick schemes", "Free money now", "Congratulations! You've won a prize" ] normal_emails = [ "Meeting at 3pm", "Reminder: grocery list", "Project update" ] spam_words = [tokenize(clean_text(email)) for email in spam_emails] normal_words = [tokenize(clean_text(email)) for email in normal_emails] known_spam_words = ['get', 'rich', 'quick', 'free', 'money', 'now', 'congratulations', 'won', 'prize'] def is_spam(email, spam_words=known_spam_words): cleaned = clean_text(email) words = tokenize(cleaned) freq = word_freq(words) rate = calculate_rate(freq, spam_words) # 调整决策阈值 return rate > 0.2 test_emails = [ "Last chance to get your free gift", "Project deadline extension", "Your account has been compromised" ] for email in test_emails: print(f"Email '{email}' -> Spam: {is_spam(email)}")

以上代码中，calculate_rate函数使用了拉普拉斯平滑，通过给每个单词频率加上1，并相应地增加分母，以防止因单词在训练集中未出现而导致的零频率问题。同时，决策阈值被调整为0.2，具体数值应根据实际需求和数据特性进行调整。

通过上述修改，我们提高了算法对于垃圾邮件的识别能力，同时也减少了误报的可能性。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

vscode python 运行程序后没有输出结果 python vscode 有问必答
2022-03-16 20:36

回答 2 已采纳文件中的代码是什么？有没有输出语句？是否有定义方法，然而方法并没有调用。
怎么将Python的运行结果导出为csv格式？ python sklearn 有问必答
2021-12-01 11:17

回答 2 已采纳可以先转换为dataframe，再用to_csv保存即可。示例： import pandas as pd import numpy as np a=np.array([[2,3,4],[1,2,3]
Python3编译器console运算结果和在程序李编程运行后得到的结果不同，这是为什么？ python
2019-11-15 21:26

回答 2 已采纳你的else缩进位置不同造成的，两个代码并不等价。 else写在外面，和while对齐，表示if语句在循环里一次都没有执行的时候，才执行这个。所以append根本没有被调用过
编程语言python语法_练习题 - Python语法入门
2020-12-04 14:31

weixin_39852688的博客 编程语言的种类有哪些？机器语言(奴隶的母语)直接用“0”和“1”构成的指令去编写程序，即用计算机能够直接理解的二进制指令编写程序，计算机可以无障碍理解。优点：运行效率最高缺点：开发效率最低汇编语言用英文...
python运行成功，不显示结果 python 有问必答
2021-05-03 09:16

回答 5 已采纳代码运行不出结果的主要原因，一是计算权重的函数没有返回结果，二是没有调用main()函数，三是没有传递参数给计算权重函数。这样改一下： import pandas as pd import num
python 用pyinstaller打包exe程序不能正常运行 python 有问必答
2021-08-08 00:36

回答 3 已采纳在打包过程中执行脚本文件title_movie时需要调用ffmpeg.exe,而在当前系统中没有发现。先下载安装ffmpeg,并添加到系统环境变量中，然后再进行文件打包。
Python编程语言 list python 有问必答
2021-12-29 11:00

回答 2 已采纳 import random n=int(input()) list=[] for i in range(n): list.append(random.randint(1,200)) print
python协程和异步编程
2021-12-22 09:36

一个新手的烦恼的博客异步编程(asyncio)1. 协程的实现1.1 greenlet1.2 yield1.3 asyncio1.4 async & awit1.5 小结2.协程的意义2.1 爬虫案例2.2 小结3.异步编程3.1 事件循环3.2 协程和异步编程3.2.1 基本应用3.2.2 await3.2.3 Task...
为啥sublime Text 运行代码的结果会是Repl Closed？(语言-python) python
2022-04-26 09:59

回答 1 已采纳 https://blog.csdn.net/rawrecruit/article/details/123266616https://www.zhihu.com/question/475266102/a
用visual studio code运行Python结果显示不出来 python 有问必答
2022-03-20 22:07

回答 3 已采纳你最后一行 gee() 要放在函数外面把最后一行 gee() 前面的空格都删除gee()要与第一行def对齐如有帮助，请点击我的回答下方的【采纳该答案】按钮帮忙采纳下，谢谢!
python如何实现，当程序运行结束后，再次重启？ list python
2019-06-24 22:06

回答 2 已采纳 https://www.cnblogs.com/mrfri/p/8558306.html
深入理解Python异步编程
2020-08-04 16:45

wangtaoking1的博客深入理解Python异步编程文章转载自：驹说码事，内容有部分修改。 0 前言很多朋友对异步编程都处于“听说很强大”的认知状态。鲜有在生产项目中使用它。而使用它的同学，则大多数都停留在知道如何使用 Tornado...
在postman使用MD5加密出来的结果与使用python加密出来的结果不一致？ python
2021-09-03 12:18

回答 5 已采纳这个问题太坑了，我找了好久才找到问题所在，以下是修改的程序代码，主要问题就在于request.data这里所以这个位置，看似一样，其实本质还是不同。希望能能够采纳支持，谢谢！！！ #!/u
python图标编程_在Python中封装GObject模块进行图形化程序编程的教程
2020-11-23 22:18

weixin_39947016的博客 Python 是用于编码图形界面的极佳语言。由于可以迅速地编写工作代码并且不需要费时的编译周期，所以可以立即使界面启动和运行起来，并且不久便可使用这些界面。将这一点与 Python 易于链接本机库的能力结合起来，...
基于python语言的并发编程
2019-06-22 15:04

程序猿非鱼的博客文章目录并发编程一、概述二、进程2.1 进程理论基础2.2 基于fork的多进程编程fork使用进程相关函数2.3 孤儿和僵尸2.4 multiprocessing模块创建进程进程创建方法进程池实现2.5 进程间通信（IPC）管道通信(Pipe)消息...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月19日

悬赏问题

¥15 clousx6整点报时指令怎么写
¥30 远程帮我安装软件及库文件
¥15 关于#自动化#的问题：如何通过电脑控制多相机同步拍照或摄影（相机或者摄影模组数量大于60），并将所有采集的照片或视频以一定编码规则存放至规定电脑文件夹内
¥20 深信服vpn-2050这台设备如何配置才能成功联网？
¥15 Arduino的wifi连接，如何关闭低功耗模式？
¥15 Android studio 无法定位adb是什么问题？
¥15 C#连接不上服务器，
¥15 angular项目错误
¥20 需要帮我远程操控一下，运行一下我的那个代码，我觉得我无能为力了
¥20 有偿：在ubuntu上安装arduino以及其常用库文件。

Python的程序运行后结果全都一致

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新