Bert4keras新闻文本摘要实例，要求本地/华为云运行生成按数字命名的一系列.txt文件的摘要

testPE文件夹

wwm文件夹

from bert4keras.snippets import sequence_padding, open
from bert4keras.snippets import DataGenerator, AutoRegressiveDecoder
from keras.models import Model

# 基本参数
maxlen = 256
batch_size = 16
steps_per_epoch = 1000
epochs = 10000

# bert配置
config_path = 'wwm/bert_config.json'
checkpoint_path = 'wwm/bert_model.ckpt' # 这里实际上是同前缀的三个文件
dict_path = 'wwm/vocab.txt'

# 训练样本。THUCNews数据集，每个样本保存为一个txt。
txts = glob.glob('testPE/*.txt')

# 加载并精简词表，建立分词器
token_dict, keep_tokens = load_vocab(
    dict_path=dict_path,
    simplified=True,
    startswith=['[PAD]', '[UNK]', '[CLS]', '[SEP]'],
)
tokenizer = Tokenizer(token_dict, do_lower_case=True)


class data_generator(DataGenerator):
    """数据生成器
    """
    def __iter__(self, random=False):
        batch_token_ids, batch_segment_ids = [], []
        for is_end, txt in self.sample(random):
            text = open(txt, encoding='utf-8').read()
            text = text.split('\n')
            if len(text) > 1:
                title = text[0]
                content = '\n'.join(text[1:])
                token_ids, segment_ids = tokenizer.encode(
                    content, title, maxlen=maxlen
                )
                batch_token_ids.append(token_ids)
                batch_segment_ids.append(segment_ids)
            if len(batch_token_ids) == self.batch_size or is_end:
                batch_token_ids = sequence_padding(batch_token_ids)
                batch_segment_ids = sequence_padding(batch_segment_ids)
                yield [batch_token_ids, batch_segment_ids], None
                batch_token_ids, batch_segment_ids = [], []


class CrossEntropy(Loss):
    """交叉熵作为loss，并mask掉输入部分
    """
    def compute_loss(self, inputs, mask=None):
        y_true, y_mask, y_pred = inputs
        y_true = y_true[:, 1:]  # 目标token_ids
        y_mask = y_mask[:, 1:]  # segment_ids，刚好指示了要预测的部分
        y_pred = y_pred[:, :-1]  # 预测序列，错开一位
        loss = K.sparse_categorical_crossentropy(y_true, y_pred)
        loss = K.sum(loss * y_mask) / K.sum(y_mask)
        return loss


model = build_transformer_model(
    config_path,
    checkpoint_path,
    application='unilm',
    keep_tokens=keep_tokens,  # 只保留keep_tokens中的字，精简原字表
)

output = CrossEntropy(2)(model.inputs + model.outputs)

model = Model(model.inputs, output)
model.compile(optimizer=Adam(1e-5))
model.summary()


class AutoTitle(AutoRegressiveDecoder):
    """seq2seq解码器
    """
    @AutoRegressiveDecoder.wraps(default_rtype='probas')
    def predict(self, inputs, output_ids, states):
        token_ids, segment_ids = inputs
        token_ids = np.concatenate([token_ids, output_ids], 1)
        segment_ids = np.concatenate([segment_ids, np.ones_like(output_ids)], 1)
        return self.last_token(model).predict([token_ids, segment_ids])

    def generate(self, text, topk=1):
        max_c_len = maxlen - self.maxlen
        token_ids, segment_ids = tokenizer.encode(text, maxlen=max_c_len)
        output_ids = self.beam_search([token_ids, segment_ids],
                                      topk=topk)  # 基于beam search
        return tokenizer.decode(output_ids)


autotitle = AutoTitle(start_id=None, end_id=tokenizer._token_end_id, maxlen=32)


def just_show():
    s1 = u'夏天来临，皮肤在强烈紫外线的照射下，晒伤不可避免，因此，晒后及时修复显得尤为重要，否则可能会造成长期伤害。专家表示，选择晒后护肤品要慎重，芦荟凝胶是最安全，有效的一种选择，晒伤严重者，还请及 时 就医 。'
    s2 = u'8月28日，网络爆料称，华住集团旗下连锁酒店用户数据疑似发生泄露。从卖家发布的内容看，数据包含华住旗下汉庭、禧玥、桔子、宜必思等10余个品牌酒店的住客信息。泄露的信息包括华住官网注册资料、酒店入住登记的身份信息及酒店开房记录，住客姓名、手机号、邮箱、身份证号、登录账号密码等。卖家对这个约5亿条数据打包出售。第三方安全平台威胁猎人对信息出售者提供的三万条数据进行验证，认为数据真实性非常高。当天下午 ，华 住集 团发声明称，已在内部迅速开展核查，并第一时间报警。当晚，上海警方消息称，接到华住集团报案，警方已经介入调查。'
    for s in [s1, s2]:
        print(u'生成标题:', autotitle.generate(s))
    print()


class Evaluator(keras.callbacks.Callback):
    """评估与保存
    """
    def __init__(self):
        self.lowest = 1e10

    def on_epoch_end(self, epoch, logs=None):
        # 保存最优
        if logs['loss'] <= self.lowest:
            self.lowest = logs['loss']
            model.save_weights('./best_model.weights')
        # 演示效果
        just_show()


if __name__ == '__main__':

    evaluator = Evaluator()
    train_generator = data_generator(txts, batch_size)

    model.fit(
        train_generator.forfit(),
        steps_per_epoch=steps_per_epoch,
        epochs=epochs,
        callbacks=[evaluator]
    )

else:

    model.load_weights('./best_model.weights')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
有问必答小助手 2021-05-26 11:15
关注
你好，我是有问必答小助手。为了技术专家团更好地为您解答问题，烦请您补充下（1）问题背景详情，（2）您想解决的具体问题，（3）问题相关代码图片或者报错信息。便于技术专家团更好地理解问题，并给出解决方案。

您可以点击问题下方的【编辑】，进行补充修改问题。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

4种 人工智能大模型和数据中台结合，实现“智能数据中台”的AI时代的数字化解决方案参考
2023-06-20 03:17

禅与计算机程序设计艺术的博客随着人工智能（AI）技术的快速发展，智能数据中台成为了数字化时代的关键解决方案之一。智能数据中台结合了人工智能大模型和数据中台的概念，旨在实现对海量数据的智能化处理和分析，从而提供准确、高效的数据洞察和...
人工智能|各名称与概念之介绍
2024-03-04 07:00

严振杰的博客总的来说，我个人比较推荐TensorFlow和PyTorch，它们都是完整的深度学习框架，支持广泛的应用，并且它们的社区和工具都在不断...而Keras提供了一个用户友好的接口，使得深度学习更加容易上手，是学习和快速开发的首选。
深度学习系列资料总结
2022-07-17 11:03

GoAI的博客说明本系列深度学习资料集合包含机器学习、深度学习等各系列教程，主要以计算机视觉资料为主，包括图像识别、分类、检测、分割等，内容参考Github及网络资源，仅供个人学习。深度学习定义一般是指通过训练多层网络...
CV：计算机视觉技最强学习路线之CV简介(传统视觉技术/相关概念)、早期/中期/近期应用领域(偏具体应用)、经典CNN架构(偏具体算法)概述、常用工具/库/框架/产品、环境安装、常用数据集、编程技巧
2022-10-18 01:51

一个处女座的程序猿的博客 CV：计算机视觉技最强学习路线之CV简介(传统视觉技术/相关概念)、早期/中期/近期应用...☆☆一、计算机视觉的简介 ☆☆二、计算机视觉相关概念简介 ☆☆三、传统的计算机视觉技术之机器视觉/计算机图形学
GPT2中文模型本地搭建（二）
2023-04-21 09:05

天罚神的博客 GPT2_ML项目是开源了一个中文版的GPT2，而且还是最大的15亿参数级别的模型。OpenAI在GPT2的时期并没有帮忙训练中文，上篇文章的验证也可说明此问题，...本文是基于bert4keras来加载模型与运行，需要先了解下一些概念。
AI开发框架主流之争与百度人工智能开发策略的思考
2021-02-15 15:51

老牛实验室的博客 nvidia的RTX-30系列GPU是去年十月初发布的，特别是其中的3090，有24G的显存，可以用来跑通目前几乎所有的深度学习模型。这个是深度学习爱好者，个人能够承担范围内的设备。现阶段深度学习开发的几种框架：...
2021年总结：缘起性空，归来不少年——回顾这荆棘的一年
2022-01-05 21:16

Eastmount的博客在AI安全和论文分享博客方面，3月初我开启了人工智能与安全领域结合的系列文章，第一篇介绍了人工智能安全和对抗样本知识，后续又详细介绍了顶会论文和英文论文撰写的方法。这些既是自己走过的坑，也是众多硕士或...
《大白AI周报》精华内容整理汇总
2020-07-20 23:22

江大白*的博客在人工智能学习中，大家或多或少都会关注一些公众号，但随着每天信息量的暴增，碎片化的内容让大家应接不暇。如何挖掘有价值的内容，如何快速查阅自己需要的内容，是一个头疼的问题。因此大白每周都会将人工智能...
收藏！2020 年最具潜力 44 个顶级开源项目，涵盖 11 类 AI 学习框架、平台_序列大数据的智能计算开源项目(1)
2024-04-18 10:37

kOS0ym的博客 DL4J 最重要的特点是支持分布式，可以在 Spark 和 Hadoop 上运行，它支持分布式 CPU 和 GPU 运行，并可以利用 Spark 在多台服务器多个 GPU 上开展分布式的深度学习模型训练，让模型运行更快。不过和传统的分布式计算...
收藏！2020 年最具潜力 44 个顶级开源项目，涵盖 11 类 AI 学习框架、平台_序列大数据的智能计算开源项目
2024-04-18 10:38

2401_84166236的博客先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7 深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！...
没有解决我的问题, 去提问

悬赏问题

¥15 运筹学排序问题中的在线排序
¥30 求一段fortran代码用IVF编译运行的结果
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 lammps拉伸应力应变曲线分析
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛
¥15 请问Lammps做复合材料拉伸模拟，应力应变曲线问题
¥30 python代码，帮调试，帮帮忙吧

Bert4keras新闻文本摘要实例，要求本地/华为云运行生成按数字命名的一系列.txt文件的摘要

1条回答 默认 最新

悬赏问题

1条回答默认最新