蓝桥杯人工智能赛道模拟赛—文本数据处理

假设你们研发小组正在进行新媒体平台某场景的文本分析，为了提升模型的泛化能力，在做了技术调研后，你们决定通过同义词替换的方法来增加训练数据的多样性，这样可以创造出各种已有训练样本的变体，这不仅扩大了训练集，还增强了模型对新颖表达方式的理解能力，从而提升模型在实际应用中的泛化能力。具体地，同义词替换通过使用同义词典替换训练数据中对应的词汇，以生成语义相似但表达不同的训练样本。在本任务中，你们需要借助提供的同义词典，实现同义词替换功能。
准备开始答题前，请确认 /home/project 目录下包含以下文件：
task.py
data.csv
loc.txt
per.txt
其中：
task.py，是你后续答题过程中编写代码的地方。
data.csv，是本任务提供的训练数据，包含 160 条样本，其中text 列表示文本内容，text_id 列表示文本对应的 id。
loc.txt 和 per.txt，是本任务提供的地名和家庭称谓词典，共包含了 273 个地名和 66 个家庭称谓。
目标请在 task.py 文件中根据以下要求编写代码。
augment 函数
功能
对输入的文本进行同义词替换。
从地名/称谓词典中，找出所有出现在输入文本中的地名/称谓。
对于每个找到的地名/称谓，从词典中随机选择一个新的地名/称谓作为替代，并将文本中的原地名/称谓替换为这个新地名/称谓。
将替换信息记录在 aug_info['locs'] 和 aug_info['pers'] 列表中，包括原始地名/称谓和替换后的地名/称谓。
参数
text（字符串），原始文本。
返回值
text（字符串），经过同义词替换后的文本。
aug_info（字典），替换信息。
aug_info['locs'] 和 aug_info['pers'] 均为一个列表，列表中每个实体的替换信息以字典形式保存，具体说明见下表。
Key 名称释义Value 类型original原始实体字符串replacement替换后的实体字符串
基于以下代码补充 #TODO 处的函数代码，并运行代码块，确保能够实现以下目标：
正确地返回经过同义词替换后的文本和替换信息。
在输入文本中只对出现在替换词典中的字段进行替换，其他文本保持不变。
提示 1：点击代码块右上方的 copy 按钮，将代码完整复制到右侧环境中后开始编码。
#task-start
importrandomimportpandasaspdfromtorch.utils.dataimportDatasetclassMakeDataset(Dataset):def__init__(self):self.data = pd.read_csv('data.csv')[['text_id','text']].values self.locs =open('loc.txt','r').read().split('\n') self.pers =open('per.txt','r').read().split('\n')def__getitem__(self, item):text_id, text = self.data[item] text, aug_info = self.augment(text)returntext_id, text, aug_infodef__len__(self):returnlen(self.data)defaugment(self, text):aug_info = {'locs': [],'pers': []}# TODOreturntext, aug_infodefmain():dataset = MakeDataset()fordataindataset:print(data)if__name__ =='main': main()#task-end
提示 2：当实现以上目标后，考生可以通过执行 main 函数自行测试对应功能。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-04-29 09:52

关注

引自免费微信小程序：皆我百晓生

首先，我们需要导入所需的库并定义MakeDataset类。然后，我们将在augment函数中实现同义词替换逻辑。接下来，我会提供完整的task.py代码，你可以直接复制粘贴到右侧环境中执行。

import random
import pandas as pd
from torch.utils.data import Dataset

class MakeDataset(Dataset):
    def __init__(self):
        self.data = pd.read_csv('data.csv')[['text_id', 'text']].values
        with open('loc.txt', 'r') as f:
            self.locs = f.read().splitlines()
        with open('per.txt', 'r') as f:
            self.pers = f.read().splitlines()

    def __getitem__(self, item):
        text_id, text = self.data[item]
        text, aug_info = self.augment(text)
        return text_id, text, aug_info

    def __len__(self):
        return len(self.data)

    def augment(self, text):
        aug_info = {'locs': [], 'pers': []}

        # 地名替换
        for loc in self.locs:
            if loc in text:
                replacement = random.choice(self.locs)
                while replacement == loc or replacement in aug_info['locs']:
                    replacement = random.choice(self.locs)
                text = text.replace(loc, replacement)
                aug_info['locs'].append({'original': loc, 'replacement': replacement})

        # 称谓替换
        for per in self.pers:
            if per in text:
                replacement = random.choice(self.pers)
                while replacement == per or replacement in aug_info['pers']:
                    replacement = random.choice(self.pers)
                text = text.replace(per, replacement)
                aug_info['pers'].append({'original': per, 'replacement': replacement})

        return text, aug_info

def main():
    dataset = MakeDataset()
    for data in dataset:
        print(data)

if __name__ == '__main__':
    main()

这段代码实现了MakeDataset类，其中包含__init__, __getitem__, __len__和augment方法。augment函数负责替换地名和称谓，同时收集替换信息。在主函数main中，我们将遍历数据集并打印结果。

注意，这段代码假设loc.txt和per.txt文件中没有重复的地名和称谓。如果有重复项，你需要稍微修改代码以避免无限循环。在实际应用中，建议先清理词典，确保没有重复的条目。

编辑记录

报告相同问题？

关注问题

蓝桥杯人工智能备赛建议
2024-06-03 20:19

唔w的博客因为该赛道是第一届，对于考核内容，考核方式，该如何备赛都不清楚。本人在将所有模拟赛的题目认真练习后，在实际比赛时发现效果并不好。因此决定将自己赛后的想法整理成文档，以让后人少走弯路。
蓝桥杯Web应用开发
2023-05-17 20:57

N-A的博客 蓝桥杯在近两期新增了一个Web应用开发赛道。如果对前端感兴趣的同学，可以尝试一下。
程序人生必备：蓝桥杯引领学习成长之路
2025-06-30 01:22

光子AI的博客内容覆盖蓝桥杯的赛事机制、备赛方法、能力提升逻辑，以及竞赛经验对职业发展的实际影响。本文将从“蓝桥杯是什么”“为什么参加蓝桥杯”“如何通过蓝桥杯成长”三个核心问题展开，结合生活案例、代码示例与职业发展...
蓝桥杯备赛宝典，开启编程逆袭之路
2025-01-02 11:02

众拾达人的博客 蓝桥杯全国软件和信息技术专业人才大赛，是你展现编程实力、迈向成功的绝佳舞台。在这里，你将与全国的编程高手过招切磋，不断突破自我，提升技能。无论你是为了升学加分、求职助力，还是单纯热爱编程，渴望挑战，...
利用蓝桥杯，谱写程序人生职业生涯学习成长新篇章
2025-05-23 18:05

AI大模型应用之禅的博客内容覆盖蓝桥杯的核心价值、备赛实战技巧、职业应用场景等，适合对编程学习与职业发展感兴趣的读者。本文将从“认识蓝桥杯”→“备赛中的成长密码”→“竞赛能力的职业转化”→“未来发展与建议”展开，结合具体代码...
第十三届蓝桥杯软件类校内模拟赛全攻略实战包
2025-10-28 22:03

ELSON麦香包的博客赛事设置软件类、电子类、设计类等多个赛道，其中软件类以C/C++、Java、Python等语言为核心，聚焦算法设计与工程实践能力考察。大赛采用“省赛—国赛”两级选拔机制，题目兼具理论深度与应用广度，高度契合产业技术...
图形化编程到代码-Python编程进阶之旅
2024-04-22 20:45

兮昕cute的博客 Python 是一种广泛使用的高级编程语言，由 Guido van Rossum 在 1989 年底发明，并第一个公开发行于 1991 年。它是一种解释型、面向对象、动态数据类型语言，其设计哲学强调代码的可读性和简洁的语法（尤其是使用...
大学生各种比赛
2021-10-17 21:29

MarryLin2021的博客全国高校计算机能力挑战赛(1)大数据应用赛(2)人工智能应用赛(3)全国高校Office高级应用挑战赛(4)全国高校程序设计挑战赛(5)嵌入式系统应用赛(6)数字媒体创新设计赛4.第十三届蓝桥杯全国软件和信息技术专业人才大赛5....
第十五届蓝桥杯大赛全赛道解析与备赛资源合集（个人赛、设计赛、数字科技创新赛）
2025-12-03 07:09

赵阿萌的博客正如一位连续三年参赛并最终拿下国一的同学所说：“我不是天才，我只是比别人多写了1000道题，多改了100次bug，多复盘了10次模拟赛。这条路没有捷径，但每一步都算数。✨现在，轮到你拿起键盘，写下属于你的第一行...
蓝桥杯：开启程序人生职业生涯学习成长的黄金钥匙
2025-07-20 11:07

光子AI的博客本文旨在全面解析蓝桥杯竞赛对程序人生职业发展的价值，提供从入门到精通的备赛指南，帮助参赛者通过蓝桥杯这一平台实现技术能力的跃升和职业发展的突破。本文将首先介绍蓝桥杯的基本情况和参赛价值，然后深入分析备...
蓝桥杯训练题目若干（东华20考研挑战题1-50）
2020-06-04 21:24

summer_shell的博客 46 邮票面值设计 47 数字密码发生器 48 小计算器 49 合根植物 50 分考场前言提交代码：选择C/C++编程语言，因为有的时候会用到C++的一些方便的头文件什么的，还有我编写代码是有一部分是纯C的，因为做题来讲C的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月29日

蓝桥杯人工智能赛道模拟赛—文本数据处理

6条回答 默认 最新

问题事件

6条回答默认最新