关于gitGLM3模型部署中遇到报错

1Torch was not compiled with flash attention. (Triggered internally at ..\aten\src\ATen\native\transformers\cuda\sdp_utils.cpp:263.)
context_layer = torch.nn.functional.scaled_dot_product_attention(query_layer, key_layer, value_layer,

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

18条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间代码工作室 Java领域优质创作者 2024-03-22 15:22
关注
获得0.45元问题酬金
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
问题描述：在使用 Torch 时，出现了这样的一个错误提示：Torch was not compiled with flash attention. (Triggered internally at ..\aten\src\ATen\native\transformers\cuda\sdp_utils.cpp:263.) context_layer = torch.nn.functional.scaled_dot_product_attention(query_layer, key_layer, value_layer)。问题解答：该错误提示表明 Torch 没有编译与 Flash Attention 相关的代码，因此无法使用该函数。Flash Attention 是一种用于语言模型等深度学习任务的注意力机制算法，需要使用 PyTorch Transformer 模块实现。在 Torch 中，默认情况下不包含 PyTorch Transformer 模块。解决该问题需要安装 PyTorch Transformer 模块。以下是具体的步骤：步骤一：安装 PyTorch Transformer 模块可以使用以下命令安装 PyTorch Transformer 模块： pip install torch==1.8.0 pip install torchtext==0.8.0 pip install transformers 步骤二：调用 PyTorch Transformer 模块在代码中添加以下语句，就可以调用 PyTorch Transformer 模块： import torch.nn.functional as F from transformers import AutoModel, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased') model = AutoModel.from_pretrained('bert-base-uncased') query_layer = model.encode(tokenizer("query", return_tensors="pt")) key_layer = model.encode(tokenizer("key", return_tensors="pt")) value_layer = model.encode(tokenizer("value", return_tensors="pt")) context_layer = F.multihead_attention(query_layer, key_layer, value_layer) 其中，以上代码的参数可以根据具体任务和数据进行修改，这里只是作为一个示例。参考资料：
PyTorch Transformer 官方文档：https://pytorch.org/docs/stable/generated/torch.nn.MultiheadAttention.html
Transformers 官方文档：https://huggingface.co/transformers/
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容