基于bert-base-chinese的中文文本处理

基于bert-base-chinese的中文文本处理
python程序，要求：可以批量处理txt里面的内容，用bert库来处理文件内容，按{姓名，年龄，性别，生源地，病史，病史症状，初诊，处方，二诊，处方，三诊，结果，按语}等类别来整理，然后excel表格的形式导出。
如果有其他的中文分类方法的也可以。

import pandas as pd
from transformers import BertTokenizer, BertForTokenClassification
from torch.utils.data import DataLoader

# 读取txt文档
with open('medical_records.txt', 'r', encoding='utf-8') as f:
    text = f.read()

# 加载预训练的BERT模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
model = BertForTokenClassification.from_pretrained('bert-base-chinese')

# 对文本进行分词
inputs = tokenizer(text, return_tensors="pt")

# 使用BERT模型进行预测
outputs = model(**inputs)

# 提取预测结果中的信息
predictions = outputs.logits.argmax(dim=-1)

# 将预测结果转换为标签
labels = [tokenizer.convert_ids_to_tokens(idx) for idx in predictions[0].tolist()]

# 将标签转换为信息
info = {'姓名': [], '年龄': [], '性别': [], '病名': [], '第一次诊断': [], '第二次诊断': [], '处方': []}
for label in labels:
    if label == 'B-NAME':
        info['姓名'].append(label)
    elif label == 'B-AGE':
        info['年龄'].append(label)
    elif label == 'B-GENDER':
        info['性别'].append(label)
    elif label == 'B-DISEASE':
        info['病名'].append(label)
    elif label == 'B-DIAGNOSIS1':
        info['第一次诊断'].append(label)
    elif label == 'B-DIAGNOSIS2':
        info['第二次诊断'].append(label)
    elif label == 'B-PRESCRIPTION':
        info['处方'].append(label)

# 将信息写入Excel文件
df = pd.DataFrame(info)
df.to_excel('medical_info.xlsx', index=False)

大概代码就这些，运行时出现bert-base-chinese模型加载不了，想本地运行可是下载模型后还是不知道怎么调用，希望给位可以解决问题，谢谢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

10条回答默认最新

m0_71308920 2024-04-14 13:05

关注

要实现这个任务，你需要安装transformers库（包含BERT模型）和pandas库来处理Excel。首先安装这些库：

pip install transformers pandas

然后，你可以使用以下Python代码来实现你的需求。这里我使用transformers库的AutoTokenizer来分词和编码文本，然后使用pandas库来组织数据并导出到Excel。请注意，BERT模型通常用于文本分类，但在这个例子中，我们不会直接使用BERT进行分类，而是简单地将文本内容整理到Excel中。

import os
import pandas as pd
from transformers import AutoTokenizer

# 定义类别和对应的BERT分词器
categories = {
    "姓名": None,
    "年龄": None,
    "性别": None,
    "生源地": None,
    "病史": None,
    "病史症状": None,
    "初诊": None,
    "处方": None,
    "二诊": None,
    "处方": None,
    "三诊": None,
    "结果": None,
    "按语": None
}

# 读取文本文件
def read_text_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        content = f.read()
    return content

# 分割文本
def process_text(content):
    lines = content.split('\n')
    data = {}
    for i, line in enumerate(lines):
        if ':' in line:
            category, value = line.split(':', maxsplit=1)
            categories[category] = value.strip()
    return data

# 使用BERT分词器处理文本
def bert_tokenize(text, tokenizer):
    encoded_text = tokenizer.encode_plus(
        text,
        add_special_tokens=True,
        return_token_type_ids=False,
        padding='max_length',
        truncation=True,
        max_length=512,
        return_attention_mask=True,
        return_tensors='pt'
    )
    return encoded_text['input_ids'][0].tolist()

# 读取txt文件，处理内容并保存到DataFrame
def process_files(directory, file_extension, tokenizer):
    data = []
    for filename in os.listdir(directory):
        if filename.endswith(file_extension):
            file_path = os.path.join(directory, filename)
            content = read_text_file(file_path)
            processed_data = process_text(content)
            for category, value in processed_data.items():
                data.append({category: bert_tokenize(value, tokenizer)})
    return pd.DataFrame(data)

# 使用BERT分词器
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")

# 定义输入和输出文件夹
input_folder = "path_to_your_input_folder"
output_file = "output.xlsx"

# 处理所有txt文件
all_data = process_files(input_folder, ".txt", tokenizer)

# 合并所有处理后的数据
all_data = pd.concat(all_data, ignore_index=True)

# 将DataFrame写入Excel
all_data.to_excel(output_file, index=False)

请将input_folder变量替换为你的输入文件夹路径。这个脚本会遍历指定目录下的所有.txt文件，逐行处理并用BERT分词器编码，然后将结果保存到Excel文件中。

注意：由于BERT模型主要用于处理序列数据，这里我们仅使用了每个句子作为独立的输入进行编码。如果你希望根据上下文关系来处理连续的文本，可能需要修改代码以适应你的具体需求。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(9条)

报告相同问题？

关注问题

使用TF2.4 构建bert-Bilstm-crf，出现这样的warning：“CRF Decoding does not work with KerasTensors in TF2.4”，怎么解决？ python tensorflow 自然语言处理
2022-05-19 21:17

回答 3 已采纳解决方法这是个警告，一般可能不影响但如果你想从问题上解决这个警告的话，或许可以尝试下安装这个tf2crf pip install tf2crf 然后 from tf2CRF import CRF
BERT问题，无法解决，求帮助？ bert python tensorflow
2021-07-21 10:53

回答 1 已采纳你要打印这个line的值看看，是不是有两个元素能取到[1] 这个索引
BERT微调报错KeyError: tensorflow 机器学习深度学习神经网络自然语言处理
2020-05-24 22:52

回答 2 已采纳 https://github.com/terrifyzhao/bert-utils/issues/10
bert-base-chinese-ner.rar
2024-05-29 08:40

“bert-base-chinese”指的是基于Chinese的BERT基础模型，这个模型的参数量适中，适合大多数任务，并且已经被训练在大量的中文文本上，能够理解和处理中文语言的复杂性。基础模型通常有12层Transformer编码器，768个...
Bert二分类结果分析 bert 分类自然语言处理
2023-03-27 22:47

回答 3 已采纳该回答引用自ChatGPT 有几个可能的原因可以导致risk类别的预测f1-score始终为0：数据不平衡问题：尽管您使用了Focal Loss来改善数据不平衡问题，但如果risk类别的训练数据量非
BERT文本二分类LOSS变化 bert pytorch 分类
2023-03-24 21:10

回答 1 已采纳对于严重不均衡的数据集，模型容易出现偏差，导致对于少数类的预测效果较差。因此，需要对数据集进行一些处理来平衡数据，以提高模型的预测能力。具体处理方法有以下几种：过采样（Oversampling）：
bert二分类返回值是否可以输出 bert 深度学习自然语言处理
2023-04-13 10:40

回答 1 已采纳是的，对BERT模型进行微调后，可以输出二分类的结果，通常为0和1。在进行相似度分析时，BERT模型可以将两个输入文本编码为向量，然后计算这两个向量之间的相似度得分，将相似度得分输入到一个二元分类器中
基于WeiboSenti100k 数据集bert-base-chinese微调的中文情感分析任务源码+项目说明.zip
2024-05-25 06:49

《基于WeiboSenti100k数据集的BERT中文情感分析实践》在现代自然语言处理（NLP）领域，情感分析是一项重要的任务，它旨在识别和提取文本中的主观信息，如情绪、态度和观点。随着深度学习技术的发展，预训练模型如...
Bert训练完成的结果该怎么分析？ bert python 自然语言处理
2023-04-07 14:10

回答 2 已采纳 BERT 训练完成后，可以根据准确率、精确率、召回率和 F1 分数等指标进行分析。和前人的这些指标比较。要提高 BERT 模型的准确性，可以尝试以下策略：增加训练次数；更换学习率、优化器、丢弃率；使
NLP-NER任务的CRF-layer到底是什么原理？就是基于统计？ lstm 深度学习自然语言处理
2021-06-23 09:34

回答 2 已采纳基于统计
跑一个bert模型出了点问题？ pycharm tensorflow 自然语言处理
2022-09-28 13:12

回答 1 已采纳建议你看下这篇博客👉 ：bert模型训练时的一些问题及解决方法
03-Bert-TextCNN 文本分类.zip
2023-08-23 08:30

9. `bert-base-chinese`：这可能是预训练的BERT模型的中文版本，用于初始化模型的权重。 10. `img`：图像文件夹，可能包含项目相关的图表或示例图片。通过这个项目，你可以学习到如何在Python环境中集成和运用预...
使用kashgari实现BERT+Bilstm命名实体识别，在保存模型时报错！！！求助！！！ python tensorflow 神经网络自然语言处理
2021-03-01 19:29

回答 5 已采纳你好。这个错误需要进入源码进行一下修正。我已经私信你了，请看一下。需要在D:\dev\anaconda\lib\site-packages\kashgari\tasks\abs_task_mode
文本分类(三) | (1) 项目介绍(基于预训练语言模型)
2020-01-29 13:22

CoreJT的博客文本分类(三)专栏主要是对Github优秀文本分类项目的解析，该文本分类项目，主要基于预训练语言模型，包括bert、bert + CNN/RNN/RCNN/DPCNN、ERNIE等，使用PyTorch实现。本博客还讲解了一种预训练语言模型的通用...
BERT-Pytorch demo初探
2019-07-25 15:39

weixin_ry5219775的博客本文基于pytorch-pretrained-BERT(huggingface)版本的复现，探究如下几个问题： pytorch-pretrained-BERT的基本框架和使用如何利用BERT将句子转为词向量如何使用BERT训练模型（针对SQuAD数据集的问答模型，篇幅...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 4月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月12日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见

基于bert-base-chinese的中文文本处理

10条回答 默认 最新

问题事件

悬赏问题

10条回答默认最新