关于#机器学习#的问题：目的是对待分类邮件进行预测


import os
import re
import string
import math
import numpy as np
from collections import defaultdict
from sklearn.model_selection import train_test_split

DATA_DIR = r'C:\Users\***\Desktop\team7'  # 数据集地址
target_names = ['ham', 'spam']  # 正常、垃圾
stopwords = set(open('stopwords.txt', 'r').read().splitlines())  # 加载停用词


def get_data(DATA_DIR):
    # 假设“未分类邮件”是包含所有邮件的文件夹
    mail_folder = '待分类邮件'
    data = []
    target = []
    # 获取“未分类邮件”文件夹中的所有文件
    all_files = os.listdir(os.path.join(DATA_DIR, mail_folder))
    for mail_file in all_files:
        # 通过文件夹名称判断邮件类型
        if 'spam' in mail_file:
            label = 1  # 垃圾邮件标签为1
        else:
            label = 0  # 正常邮件标签为0

        # 打开邮件文件
        with open(os.path.join(DATA_DIR, mail_folder, mail_file), encoding="latin-1") as f:
            data.append(f.read())
            target.append(label)

    return data, target


def preprocess(text):
    text = text.lower()  # 转换为小写
    text = re.sub(f'[{string.punctuation}]', ' ', text)  # 去除标点符号
    text = [word for word in text.split() if word not in stopwords]  # 去除停用词
    return text


class NaiveBayesClassifier():
    def __init__(self):
        self.vocabulary = set()  # 词汇表
        self.class_total = defaultdict(int)  # 每个类别的文档数
        self.word_total = defaultdict(int)  # 每个类别中所有单词出现次数之和
        self.word_given_class = defaultdict(lambda: defaultdict(int))  # 每个类别中每个单词出现次数

    def fit(self, X, y):
        for text, label in zip(X, y):
            words = preprocess(text)
            self.class_total[label] += 1
            for word in words:
                self.vocabulary.add(word)
                self.word_given_class[label][word] += 1
                self.word_total[label] += 1

    def predict(self, X):
        log_priors = {}
        for c in self.class_total.keys():
            log_priors[c] = math.log(self.class_total[c] / sum(self.class_total.values()))
            predictions = []
        for text in X:
            words = preprocess(text)
            log_probs = {}
        for c in self.class_total.keys():
            log_probs[c] = log_priors[c]
        for word in words:
            # 对未见过的单词进行平滑处理
            log_probs[c] += math.log((self.word_given_class[c][word] + 1) / (self.word_total[c] + len(self.vocabulary)))
            predictions.append(max(log_probs, key=log_probs.get))
        return predictions


# 加载数据集
X, y = get_data(DATA_DIR)

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建实例并训练模型
clf = NaiveBayesClassifier()
clf.fit(X_train, y_train)

# 对新邮件进行分类
new_email = 'Subject: et & s photo contest - announcing the winners\nCongratulations to the following winners of the 2001 ET & S photo contest. Over 200 entries were submitted! The winning photos will be displayed in the 2001 ET & S public education calendar.'
prediction = clf.predict([new_email])[0]

# 在测试集上进行预测并计算准确率
predictions = clf.predict(X_test)
accuracy = np.sum(np.array(predictions) == np.array(y_test)) / len(y_test)
# 创建一个列表来存储每封邮件的预测结果
predicted_emails = []

# 遍历每封测试邮件，并将预测结果添加到列表中
for i, prediction_index in enumerate(predictions):
    predicted_emails.append((i + 1, target_names[prediction_index]))

# 打印预测结果
for email_no, prediction in predicted_emails:
    print(f'Email {email_no}: Prediction: {prediction}')

print(f'Prediction for new email: {target_names[prediction]}')
print(f'Accuracy: {accuracy:.2f}')

目的是对待分类邮件进行预测，2000封只运行出来500多封，运行结果出来还全是正常邮件，并且还报错。请问代码哪里出错了？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-06-09 13:08
关注
引自免费微信小程序：皆我百晓生

看起来您的代码有一些错误和缺失的部分。让我们逐步解决它们。

首先，让我们修复accuracy计算部分的警告。这是由于Python在比较数组时发出的警告，因为这在未来可能会引发错误。我们可以简单地使用NumPy的equal函数替换等于运算符，如下所示：

accuracy = np.mean(np.equal(np.array(predictions), np.array(y_test)))

接下来，我们解决TypeError。当您尝试访问target_names列表时，使用了字符串作为索引，但列表索引应为整数。这是因为prediction是一个整数（0 或 1），而不是字符串。要解决这个问题，请修改打印预测结果的部分，如下所示：

print(f'Prediction for new email: {target_names[int(prediction)]}')

现在，让我们检查一下为什么只有500多封邮件被处理。这可能是由于您的数据集中只有这么多训练样本。为了确保正确处理所有数据，我们需要确保get_data()函数正确读取了所有的邮件文件。在all_files变量中，您可以尝试打印文件名，确认是否包含了所有预期的文件：

for mail_file in all_files: print(mail_file)

如果文件数量不足，您可能需要检查数据集结构或文件命名规则是否与代码中的逻辑匹配。另外，确保在运行代码之前，您的数据集路径指向正确的文件夹位置。

最后，关于预测结果都是正常邮件的问题，这可能是因为训练数据不平衡，即正常邮件的数量远大于垃圾邮件。在这种情况下，朴素贝叶斯分类器更倾向于预测大多数类别的标签，也就是正常邮件。要改善这种情况，可以考虑对数据进行重新采样（例如，过采样少数类或欠采样多数类），或者调整模型参数。此外，评估模型性能时，除了准确性外，还可以查看混淆矩阵、召回率和F1分数等指标，以便更好地理解模型的表现。

以下是修复后的代码：

# ... (其他代码保持不变) # 打印所有邮件文件名，以确认是否都已加载 for mail_file in all_files: print(mail_file) # 计算准确率，修复警告 accuracy = np.mean(np.equal(np.array(predictions), np.array(y_test))) # 打印预测结果，修复TypeError print(f'Prediction for new email: {target_names[int(prediction)]}') print(f'Accuracy: {accuracy:.2f}')

运行这段代码后，您可以观察输出以了解问题所在。如果仍然存在问题，请提供有关数据集结构和文件数量的更多信息，以便进一步分析。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于#机器学习#的问题：如何基于交叉验证进行模型的选择与评价人工智能机器学习
2023-02-21 23:52

回答 2 已采纳交叉验证是一种在机器学习中常用的评估模型性能的方法。它的基本思想是将数据集分成若干个互不重叠的子集，然后利用其中的一部分子集作为测试集，而将其他子集作为训练集，这样可以对模型进行多次训练和测试，以获得
关于#机器学习#的问题：问题遇到的现象和发生背景(语言-matlab) matlab 人工智能机器学习
2022-07-30 10:46

回答 1 已采纳注意MATLAB编译和运行Cpp文件需要C++的环境哟~ https://blog.csdn.net/lihe4151021/article/details/121521250这篇文章很好得讲解了如
关于#机器学习#的问题：RMSE, MAE都是pso_bp最好，而MAPE却是BP最好机器学习神经网络
2022-11-10 21:25

回答 1 已采纳 MAE和RMSE一样，衡量的是真实值与预测值的偏离的绝对大小情况；而MAPE衡量的是偏离的相对大小（即百分率）。相对来说，MAE和MAPE不容易受极端值的影响；而MSE/RMSE采用误差的平方，会放
人工智能知识全面讲解：机器学习的类型
2022-06-21 16:29

Lee达森的博客产品经理在日常工作中经常要用到一些理论方法来帮助解决问题。...如图1-8所示，机器学习最常见的分类方式是根据数据有无标签分为四类：数据全部有标签的情况称为有监督学习，这种学习通过已有的一部分输入数据
关于#机器学习#的问题：回归问题中Y值的大小对评估指标的影响是否很大？人工智能机器学习目标检测
2021-07-11 12:02

回答 1 已采纳你的y是指Y(x)=W0+W1*x的Y么？如果是这个的话，y的大小和评估指标是没有影响的，只有y的分布对这个才有影响。如果说rmes，公式如上，如果训练数据（xi,yi）总体上接近一条直线，那么这
关于#机器学习#的问题：如图所示的字符串(语言-python) python
2022-10-02 10:29

回答 1 已采纳处理成什么样？能不能说清楚？
关于#机器学习#的问题：标准方程法需要计算X, X^T， (X^TX)^(-1)和y才能计算\theta 有问必答机器学习
2022-06-14 04:19

回答 2 已采纳吴恩达机器学习笔记：Normal equation（正规方程法） - 知乎 Normal equation: Method to solv
【机器学习】一文读懂到底什么是机器学习，有什么作用？
2024-06-26 17:19

PD产品皮卡的博客 机器学习的根本原理就是是通过让机器自动从庞大的数据中学习和寻找规律的一种过程或者是模式，进而做出预测或者做出决策。这可以通过构建和训练机器学习模型来实现，模型会自动学习从输入到输出之间的映射关系。可以...
关于#机器学习#的问题，如何解决？机器学习算法
2023-01-01 00:36

回答 2 已采纳我现在写，望采纳！！点击该回答右侧的“采纳”按钮即可采纳！！这是一个比较全面的任务，需要用到 Python 中的不同机器学习库和模型来完成。对于第一类数据集，我们可以使用 NumPy 库来生成数据
关于#机器学习#的问题，如何解决？(语言-python) python 开发语言机器学习
2023-03-12 14:43

回答 2 已采纳这个错误提示表明，在计算距离的时候使用了字符串类型的数据，而距离计算一般是针对数值型数据的。你需要检查你的数据，看看是否有些特征是字符串类型的，如果有，你需要进行相应的处理，将其转换为数值类型，比如使
关于#opencv#的问题：j机器视觉的学习方向 opencv 深度学习神经网络
2022-08-24 18:50

回答 1 已采纳 opencv基础的话算作数字图像处理，可以说是传统图像处理方法。你后面要做视觉感知的话（这个也会分传统和深度学习的，不过传统的视觉感知只能做一些简单的，比如颜色识别，Blob识别等等。你既然是扫地车，
机器学习基础：与Python关系和未来发展
2024-06-23 23:01

敲键盘的小夜猫的博客欢迎回到我们的神经网络与深度学习Tensorflow...前面的文章中我们学习安装了Tensorflow-GPU，在本文章开始我们将从理论课逐步进入编码的学习，了解人工智能为什么离不开python语言，再到人工智能将为我们解决什么问题。
关于#神经网络#的问题：卷积神经网络中的池化过程，是对输入层池化，还是提取特征值后再池化人工智能机器学习神经网络
2022-06-17 00:31

回答 3 已采纳卷积神经网络结构决定它先利用卷积层提取特征，将提取的特征输入到池化层进行池化，和输入层没关系了
终极算法：机器学习和人工智能如何重塑世界
2018-04-12 10:44

蔚1的博客内容简介算法已在多大程度上影响我们的生活？购物网站用算法来为你推荐商品，点评网站用算法来帮你选择餐馆，GPS 系统用算法来帮你选择好的路线，公司用算法来选择求职者……当机器最终学会...机器学习五大学派，每...
翻译：监控生产中的机器学习模型
2021-09-07 09:06

AI架构师易筋的博客一旦您将机器学习模型部署到生产环境中，很快就会发现工作还没有结束。在许多方面，旅程才刚刚开始。您如何知道您的模型是否按照您的预期运行？当客户（或欺诈者）行为发生变化并且您的训练数据陈旧时，下周/月/...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月9日

悬赏问题

¥15 FileNotFoundError 解决方案
¥15 uniapp实现如下图的图表功能
¥15 u-subsection如何修改相邻两个节点样式
¥30 vs2010开发 WFP（windows filtering platform）
¥15 服务端控制goose报文控制块的发布问题
¥15 学习指导与未来导向啊
¥15 求多普勒频移瞬时表达式
¥15 如果要做一个老年人平板有哪些需求
¥15 k8s生产配置推荐配置及部署方案
¥15 matlab提取运动物体的坐标

关于#机器学习#的问题：目的是对待分类邮件进行预测

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新