使用C# BERT NLP深度学习和ONNX Runtime进行本地部署推理

GitHub 上的 onnx/models 仓库中，验证过的文本机器理解模型（BERT-SQuAD）的主分支模型
onnx模型下载地址：
https://github.com/onnx/models/tree/main/validated/text/machine_comprehension/bert-squad/model

使用 C# 和 onnxruntime 进行 BERT NLP 推理
Inference BERT NLP with C# | onnxruntime

https://onnxruntime.ai/docs/tutorials/csharp/bert-nlp-csharp-console-app.html#inference-with-c

根据上述链接中的模型和推理范例，做成一个完整的推理项目，在本地完成部署推理
1.输入内容
2.点击推理
3.返回推理结果

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

18条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-03-05 15:42
关注
引自免费微信小程序：皆我百晓生

为了帮助您在本地部署和使用C#与ONNX Runtime进行BERT NLP推理，以下是一个详细的步骤指南以及相关代码片段。请注意，由于实际项目开发中涉及的文件路径、环境配置等因素无法在此详尽，请根据实际情况调整。

准备工作：

安装.NET Core SDK（确保版本兼容ONNX Runtime）
安装ONNX Runtime NuGet包到您的C#项目：dotnet add package Microsoft.ML.OnnxRuntime
从模型下载地址下载所需的BERT-SQuAD模型文件（.onnx格式）

创建C#项目结构：创建一个控制台应用程序，并导入必要的命名空间：

using System; using System.IO; using Microsoft.ML.OnnxRuntime;

加载ONNX模型：加载下载好的BERT模型文件：

string modelPath = @"path/to/bert.onnx"; var sessionOptions = new SessionOptions { GraphOptimizationLevel = GraphOptimizationLevel.ORT_ENABLE_ALL }; var session = new InferenceSession(modelPath, sessionOptions);

处理输入数据： BERT-SQuAD模型通常需要两个输入，一个是问题（question），另一个是上下文文本（context）。将它们转换为ONNX接受的数据格式并创建对应的ValueInfoProto实例：

// 假设我们有如下问题和上下文文本 string question = "What is 5G?"; string context = "5G...4G+HD201:26"; // 对输入进行预处理（这里仅做示例，实际需要遵循BERT模型要求的tokenizer规则） var inputIds = BertTokenizer.Preprocess(question, context); // 这部分需要实现BERT的tokenizer逻辑 var tokenTypeIds = ...; // Segment IDs var attentionMask = ...; // Attention mask // 转换为TensorData var inputs = new List<NamedOnnxValue>() { NamedOnnxValue.CreateFromTensor("input_ids", new DenseTensor<int>(inputIds)), NamedOnnxValue.CreateFromTensor("token_type_ids", new DenseTensor<int>(tokenTypeIds)), NamedOnnxValue.CreateFromTensor("attention_mask", new DenseTensor<int>(attentionMask)) };

执行推理：使用ONNX Runtime进行推理：

var results = session.Run(inputs); // 获取输出结果，解码为实际答案 var output = results.First().AsTensor<float>(); // 这里同样需要对输出结果进行后处理以得到最终答案，这部分逻辑依赖于SQuAD任务的具体要求 var answer = DecodeAnswer(output);

实现UI交互：为了实现点击按钮完成推理的功能，您可以使用Console.ReadLine()获取用户输入，或者在WPF或WinForms应用中添加界面元素。以下是一个简单的Console应用示例：

while (true) { Console.WriteLine("请输入问题:"); string question = Console.ReadLine(); Console.WriteLine("请输入上下文文本:"); string context = Console.ReadLine(); // 执行上述4-5步的推理过程 Console.WriteLine($"推理结果: {answer}"); }

请根据实际需求自行填充tokenizer和decodeAnswer函数的内容，这两个函数分别负责将原始文本转换成模型所需的输入形式，以及将模型输出解码为可读的答案。此外，由于篇幅限制，这里未提供完整的tokenizer和decoder实现，您可能需要参考BERT的相关文档和源码来完成这部分工作。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Inference with C# BERT NLP Deep Learning and ONNX Runtime
2023-12-01 11:37

天天代码码天天的博客 Inference with C# BERT NLP Deep Learning and ONNX Runtime
深度学习推理引擎---ONNX Runtime
2025-05-17 16:22

MzKyle的博客 ONNX Runtime是由微软开发的跨平台推理引擎，专为优化ONNX模型的推理性能...ONNX Runtime兼容多种硬件（CPU/GPU/TPU/NPU等）和操作系统（Windows/Linux/macOS/嵌入式系统），支持多种编程语言（Python/C++/C#/Java等）
手把手教你用ONNX Runtime加速BERT推理（附完整代码示例）
2025-10-02 14:56

ByteVein的博客掌握大模型推理加速秘诀，手把手教你用ONNX Runtime优化BERT推理性能。基于大模型推理引擎ONNX Runtime实现量化与图优化，显著提升推理速度，适用于NLP服务部署场景，附完整代码示例，值得收藏。
导出BERT句子模型为ONNX并推理
2024-10-25 17:16

Pika在线的博客 ONNX 是一种开放的神经网络交换格式，旨在促进深度学习模型在不同平台和工具之间的共享和移植...通过将BERT模型导出为ONNX并使用ONNX Runtime进行推理，我们可以大幅度提升推理速度，同时保持了高精度的句子嵌入计算。
onnx runtime文档学习5-加速Pytorch之Pytorch推理
2024-03-13 09:27

whyte王的博客本教程第一篇：介绍ONNX Runtime(ORT)的基本概念。本教程第二篇：是一个快速指南，包括安装ONNX Runtime；安装ONNX进行模型输出；Pytorch, TensorFlow和...包括比较pytorch推理，torchscipt推理和ONNXRuntime推理。
[译文]Faster and smaller quantized NLP with Hugging Face and ONNX Runtime
2022-04-28 20:07

choose_c的博客量化和蒸馏是处理这些尺寸和性能挑战的两种常用技术。这些技术是互补的，可以一起...这项工作建立在我们之前分享的ONNX Runtime优化推理的基础上，可以为您提供额外的性能提升，以及在客户端设备上解除阻塞推理。
[译文]Accelerate your NLP pipelines using Hugging Face Transformers and ONNX Runtime
2022-04-28 19:45

choose_c的博客我们将分享ONNX Runtime团队和HuggingFace如何合作，以解决和减少Transformer模型训练和部署中的这些挑战。这是一个简化训练并降低推断成本的解决方案。
转换onnx_模型推理加速系列|如何用ONNX加速BERT特征抽取(附代码)
2021-01-10 17:56

雾岛诸羽的博客小伙伴们都知道，BERT体系模型庞(臃)大(肿)，各种刷榜自然是香，但是在工业落地上的推理性能一直是道坎。如何高效提升NLP，在今年的EMNLP2020上有一场tutorial非常广泛地介绍了各种提高NLP效率的奇技淫巧，感兴趣的...
【深度学习实践】深入浅出ONNX模型详解
2025-03-06 00:05

云博士的AI课堂的博客本文将提供一个非常详细的 ONNX 介绍，包括它的基本概念、主要特性、模型转换、生态系统、...此外，我会提供 Python 和 C++ 代码示例，既包括通用的推理代码，也涵盖特殊模型（如 ResNet、YOLO、BERT 等）的调用方式。
nlp自然语言处理面经_拥抱面和onnx运行时更快，更小量化的nlp
2020-09-03 03:42

weixin_26750481的博客 nlp自然语言处理面经This post was written by Morgan Funtowicz, Machine Learning Engineer from Hugging Face and Yufeng Li, Senior Software Engineer from Microsoft 本文由Hugging Face的机器学习工程师 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 3月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月5日

使用C# BERT NLP深度学习和ONNX Runtime进行本地部署推理

18条回答 默认 最新

问题事件

18条回答默认最新