NER_ZH运行问题

在使用您发布在GitCode上的项目https://gitcode.com/tmylla/NER_ZH%E6%97%B6%E4%BB%A3%E7%A0%81%E8%BF%90%E8%A1%8C%E5%87%BA%E7%8E%B0%E9%97%AE%E9%A2%98%EF%BC%8Cckpts%E6%96%87%E4%BB%B6%E5%A4%B9%E4%B8%8B%E4%B8%A4%E4%B8%AA%E6%A8%A1%E5%9E%8B%E5%9D%87%E4%B8%BAbert_base_chinse,tokenizer%E8%BF%90%E8%A1%8C%E6%97%A0%E8%AF%AF%EF%BC%8Cinput_ids, token_type_ids, attention_mask检查后无误，导入模型后outputs张量全为nan值，预测结果均为同一标签，请问作者如何解决。
所有的包均已安装，torch版本与cuda一致。


```python
NaN values found in outputs
BaseModelOutputWithPoolingAndCrossAttentions(last_hidden_state=tensor([[[nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         ...,
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan]],

        [[nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         ...,
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan]],

        [[nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         ...,
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan]],

        ...,

        [[nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         ...,
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan]],

        [[nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         ...,
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan]],

        [[nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         ...,
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan],
         [nan, nan, nan,  ..., nan, nan, nan]]], device='cuda:0'), pooler_output=tensor([[nan, nan, nan,  ..., nan, nan, nan],
        [nan, nan, nan,  ..., nan, nan, nan],
        [nan, nan, nan,  ..., nan, nan, nan],
        ...,
        [nan, nan, nan,  ..., nan, nan, nan],
        [nan, nan, nan,  ..., nan, nan, nan],
        [nan, nan, nan,  ..., nan, nan, nan]], device='cuda:0'), hidden_states=None, past_key_values=None, attentions=None, cross_attentions=None)


![img](https://img-mid.csdnimg.cn/release/static/image/mid/ask/57e4824744db4070b938859e192466d1.png "#left")

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-22 12:55
关注
引自免费微信小程序：皆我百晓生

看起来你在尝试使用BERT进行命名实体识别（NER），但是遇到了输出全是nan的问题。这种情况通常是由于梯度爆炸或者梯度消失导致的。这里有一些可能的解决方案：

检查输入数据格式: 确保你的输入数据已经正确地经过了分词、编码，并且形状和大小是正确的。例如，input_ids, token_type_ids, 和 attention_mask 应该符合BERT模型的预期。

检查数据规模: 如果数据集中存在特别长的句子，这可能导致梯度爆炸。尝试对句子进行截断，限制每个样本的最大长度。

初始化权重: 尽管BERT通常不需要特殊的权重初始化，但如果你是从随机权重开始训练，确保你的学习率设置得足够小。

学习率调整: 使用较小的学习率，比如1e-5到5e-5之间。可以尝试使用学习率调度器，例如BERT推荐的warmup策略。

检查模型加载: 确保模型和预训练权重都已经正确加载。如果模型没有加载成功，可能会得到无效的输出。

检查GPU内存: 确保你的GPU有足够的内存来处理你的数据和模型。如果内存不足，可能会导致错误的结果。

启用mixed precision training: 在某些情况下，使用混合精度训练（Mixed Precision）可以帮助缓解梯度问题并提高性能。你可以使用PyTorch的apex.amp模块来进行此操作。

下面是一个简化版的示例代码，展示了如何使用BERT进行NER以及一些上述建议的实践：

import torch from transformers import BertTokenizerFast, BertForTokenClassification, AdamW from torch.utils.data import Dataset, DataLoader from sklearn.model_selection import train_test_split import numpy as np # 假设你有一个包含输入文本和对应标签的数据集 class NERDataset(Dataset): # 实现__len__, __getitem__等方法 # 划分训练集和验证集 train_dataset, val_dataset = train_test_split(dataset, test_size=0.2) # 初始化 tokenizer 和 model tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese') model = BertForTokenClassification.from_pretrained('bert-base-chinese') # 数据加载器 batch_size = 8 train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True) val_dataloader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False) # 模型参数和优化器 params = list(model.parameters()) optimizer = AdamW(params, lr=5e-5) # 开始训练 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model.to(device) num_epochs = 3 for epoch in range(num_epochs): for step, (inputs, labels) in enumerate(train_dataloader): inputs = {key: value.to(device) for key, value in inputs.items()} labels = labels.to(device) # Forward pass outputs = model(**inputs, labels=labels) loss = outputs.loss # Backward pass optimizer.zero_grad() loss.backward() # Clip gradients to avoid exploding gradients torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0) # Update weights optimizer.step() # Validation after each epoch with torch.no_grad(): total_loss = 0 for inputs, labels in val_dataloader: inputs = {key: value.to(device) for key, value in inputs.items()} labels = labels.to(device) outputs = model(**inputs, labels=labels) loss = outputs.loss total_loss += loss.item() avg_val_loss = total_loss / len(val_dataloader) print(f'Epoch {epoch + 1}/{num_epochs}, Validation Loss: {avg_val_loss:.4f}') # Save the trained model torch.save(model.state_dict(), 'ner_model.pth')

这个代码片段展示了一个简单的BERT NER训练流程，包括数据预处理、模型加载、训练循环、损失计算和模型保存。你需要根据你的实际数据集替换NERDataset类中的实现部分。

如果你仍然遇到问题，请提供更多的上下文信息，如数据样例、完整的代码段，以及任何其他可能有用的调试信息，这样我可以更具体地帮助你。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

NLP-NER任务的CRF-layer到底是什么原理？就是基于统计？ lstm 深度学习自然语言处理
2021-06-23 09:34

回答 2 已采纳基于统计
spacy 的ner模型建立 python
2023-03-21 18:20

回答 1 已采纳该回答引用NewBing 你好，这是Bing。我可以帮你解决这个问题。😊 根据搜索结果¹²³，在spacy v3中，添加管道的方式发生了变化。组件必须被注册，并且可以通过它们的名字添加到一个管道中
命名实体识别数据标注问题自然语言处理
2020-04-11 20:36

回答 2 已采纳你要是有规则，就可以程序自动标注，没有规则，只能人工来做。
Rasa_nlu_chi：入门教程
2020-12-09 16:11

Dawn_www的博客 1. 为防止版本兼容问题，创建Python虚拟环境链接：https://jingyan.baidu.com/article/b7001fe15d584c4e7282ddb2.html 1.1 创建一个文件夹（如pythonEnv），控制台进入该文件夹，运行 python -m venv . 1.2...
使用TF2.4 构建bert-Bilstm-crf，出现这样的warning：“CRF Decoding does not work with KerasTensors in TF2.4”，怎么解决？ python tensorflow 自然语言处理
2022-05-19 21:17

回答 3 已采纳解决方法这是个警告，一般可能不影响但如果你想从问题上解决这个警告的话，或许可以尝试下安装这个tf2crf pip install tf2crf 然后 from tf2CRF import CRF
请问命名实体识别任务中如何在bilstm前加入embedding？ lstm nlp 自然语言处理
2022-01-17 21:39

回答 1 已采纳可以把BERT的Embedding层拿来用，也可以把BEET的输出视为embedding，也可以自己使用NN..Embedding定义一层Embedding层，自己进行训练
python方法写在什么位置问题 python
2022-02-06 18:50

回答 1 已采纳因为list的append方法返回值是None，所以[].append('me')是None，s[2]就是{'Anner': None}。而dict得setdefault方法返回值是key 'Anne
自然语言处理相关工具调研
2020-04-26 19:44

像风一样自由2020的博客自然语言处理基础工具调研一词典 HowNet HowNet（知网情感词典）是董振东先生、董强先生父子毕三十年之功标注的大型语言知识库，主要面向中文（也包括英文）的词汇与概念。该词典主要分为中文和英文两部分...
关于#python#的问题：python爬虫 python 爬虫
2023-04-06 21:17

回答 2 已采纳根据代码片段，您的问题可能出现在XPath表达式上。您在获取评论列表的Xpath表达式中使用了.format(j)，但是您并没有在字符串中使用花括号来表示要替换的值。因此，.format(j)部分被忽
python 大量文本数据预处理（NLP），跑的很慢，是否可以用上GPU加速 linux python 有问必答自然语言处理
2022-02-24 11:25

回答 3 已采纳可以用啊，判断GPU是否可用，否则使用cpu device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
使用kashgari实现BERT+Bilstm命名实体识别，在保存模型时报错！！！求助！！！ python tensorflow 神经网络自然语言处理
2021-03-01 19:29

回答 5 已采纳你好。这个错误需要进入源码进行一下修正。我已经私信你了，请看一下。需要在D:\dev\anaconda\lib\site-packages\kashgari\tasks\abs_task_mode
【ChatGPT】LLM三大核心技术及GPT应用（ChatGLM-6B、duckduckgo_search、GPT在科研的应用等）
2023-04-15 18:51

山顶夕景的博客 instructGPT（基于提示学习的系列模型）——>GPT3.5（大规模预训练语言模型）——>ChatGPT模型（高质量数据标注+反馈学习）。chatGPT三大技术：情景学习、思维链、自然指令学习。 GPT4飞跃式提升：多模态、输入字符...
eclipse连接sql server 2005问题 eclipse java sql
2015-08-13 13:38

回答 8 已采纳 ``` public static void main(String[] args) { // TODO 自动生成的方法存根 String driverName = "com.m
基于 Jupyter notebook的SpaCy 官方中文模型源码
2022-03-24 23:29

这通常通过运行`pip install spacy`和`python -m spacy download zh_core_web_sm`命令完成。然后，在Jupyter Notebook中导入SpaCy库和模型。 2. **加载模型**：使用`spacy.load('zh_core_web_sm')`加载中文模型。这...
自然语言处理（NLP）：22 BERT中文命名实体识别
2020-06-16 15:25

艾文教编程的博客本文主要通过不同的数据集来进行 NER 模型验证验证，以及指定一些通过训练 NER 任务的一套标准，通过两条路线进行分析和总结。（1）工业界场景-> 学术界 NER 论文-> BERT 实现 NER 方案以及源码分析（2）...
python编程问题--第三次
2019-10-15 17:14

weixin_ry5219775的博客 next 方法激活生成器,运行到 yield的时候创建线程并暂停（挂起）,同时相应后面的请求 ,gen.send 再唤醒生成器并返回数据,A在继续往下执行回调：函数嵌套函数，传入的也是函数,待run执行完之后得到的数据再传给 ...
NLP: 基于文本语义的智能问答系统
2021-02-09 08:35

datayx的博客向AI转型的程序员都关注了这个号????????????人工智能大数据与深度学习公众号：datayx问答系统是自然语言处理领域一个很经典的问题，它用于回答人们以自然语言形式提出的问题，...
.NET Core 中的日志与分布式链路追踪
2022-02-09 08:00

溪源More的博客 OpenTracing API 和 Jaeger 链路追踪实践在不同进程中跟踪在 ASP.NET Core 中跟踪导读：程序记录的日志一般有两种作用，故障排查、显式程序运行状态，当程序发生故障时，我们可以通过日志定位问题，日志可以给...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月22日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见

NER_ZH运行问题

6条回答 默认 最新

问题事件

悬赏问题

6条回答默认最新