如何用C# tessdata获取文字和位置信息

我这边已经用C#已经可以获取文本和位置信息，但是这个文本不是跟位置信息绑定的，我还得解析文本，我觉的应该有办法直接获取文本和位置信息的对象，查了半天，也没找到答案，有能解答一下的吗？


var engine = new TesseractEngine(@"D:\Program Files\Tesseract-OCR\tessdata", "chi_sim", EngineMode.Default);
var img = Pix.LoadFromFile(path);
var page = engine.Process(img);
PageIteratorLevel level = PageIteratorLevel.Word;
//这个是获取文字块
var textLocation = page.GetSegmentedRegions(level);
//这个是获取文本
var textWord = page.GetText();

//文字块的属性里面，没有文本，有办法全部获得吗

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-05-27 15:15
关注
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

要解决您的问题，即在C#中使用Tesseract库同时获取文本内容和对应的位置信息，并将它们绑定在一起形成一个对象，可以参考以下步骤和代码示例：

使用TesseractEngine的Process方法来处理图像，获取Page对象。
通过Page对象的GetIterator方法获取迭代器。
使用迭代器遍历文本的不同层级（如单词、文本行等），并获取每个文本元素的边界框（bounding box）。
将文本内容和对应的边界框信息封装到自定义的对象中。

以下是一个示例代码，展示了如何实现上述步骤：

using Tesseract; using Tesseract.Pix; // ... // 假设您已经有了TesseractEngine实例和Pix图像实例 var engine = new TesseractEngine(@"D:\Program Files\Tesseract-OCR\tessdata", "chi_sim", EngineMode.Default); var img = Pix.LoadFromFile(path); // 处理图像获取Page对象 using (var page = engine.Process(img)) { // 创建迭代器 var iter = page.GetIterator(); PageIteratorLevel level = PageIteratorLevel.RIL_WORD; // 可以选择不同的层级 // 遍历文本 List<TextWithLocation> textWithLocations = new List<TextWithLocation>(); do { var rect = iter.GetBoundingBox(level); if (rect != null) { // 获取文本和位置信息 string text = iter.GetText(level); int x = rect.Left; int y = rect.Top; int width = rect.Width; int height = rect.Height; // 封装文本和位置信息到自定义对象 textWithLocations.Add(new TextWithLocation { Text = text, X = x, Y = y, Width = width, Height = height }); } } while (iter.Next(level) && level > PageIteratorLevel.RIL_BLOCK); // 现在textWithLocations包含了文本和位置信息的对象列表 }

在上述代码中，TextWithLocation是一个自定义类，您需要根据需要定义它，例如：

public class TextWithLocation { public string Text { get; set; } public int X { get; set; } public int Y { get; set; } public int Width { get; set; } public int Height { get; set; } }

关于参考资料，您可以参考以下链接：

[使用 Tesseract 在 C# 中进行光学字符识别（OCR）完整教程][^1^]：这篇文章提供了一个完整的教程，介绍了如何在 C# 中使用 Tesseract 进行 OCR，包括基本的安装和配置步骤。
[C#如何使用tesseract获取文字的xy_编程语言-CSDN问答][^4^]：这篇文章提供了示例代码，展示了如何使用 Tesseract.NET SDK 获取文字的 xy 坐标。

希望这些信息能帮助您解决问题。如果还有其他问题或需要进一步的帮助，请随时提问。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

C#图片文字提取(亲自测试过可以使用)
2023-06-15 22:32

在IT行业中，C#是一种广泛使用的编程语言，尤其在开发Windows桌面应用、游戏以及服务器端应用程序时。本项目聚焦于“C#图片文字提取”这一技术领域，这涉及到光学字符识别（OCR）技术，它是计算机视觉的一个分支，...
c#OCR识别图片识别文字
2023-02-17 09:46

2. 初始化引擎：创建Tesseract实例，指定数据路径（包含"tessdata"文件夹的位置）和要使用的语言。 ```csharp using Tesseract; var tesseract = new TesseractEngine(@"path/to/tessdata", "chi_sim", EngineMode...
C#从图片中识别文字
2017-09-01 16:21

C#是一种广泛用于开发Windows应用程序的编程语言，它拥有丰富的库和工具，能够实现图片文字识别功能。下面我们将深入探讨如何在C#中进行图片文字识别，以及可能涉及的关键知识点。首先，我们需要一个OCR引擎，例如...
扫描图片，输出图片文字，C#,winform,VS2012
2022-05-05 20:32

在本文中，我们将深入探讨如何使用C#编程语言在Windows Forms（WinForm）环境中，结合Visual Studio 2012或2019，实现一个扫描图片并提取其中文字的功能。这一过程通常被称为光学字符识别（OCR，Optical Character ...
c#操作摄像头拍照并OCR识别文字
2018-06-11 11:22

在C#编程环境中，操作摄像头拍照并实现OCR（Optical Character Recognition，光学字符识别）是一项常见的任务，尤其在开发基于图像处理的应用时。本篇将详细介绍如何使用C#进行这项工作，以及涉及到的关键知识点。 ...
c# ocr 识别图片中的文字（包含中文）
2017-11-13 21:02

在C#编程环境中，开发人员可以利用OCR库来实现对图像中文字的识别，包括中文字符。以下是对这个主题的详细阐述： 1. OCR技术基础： - OCR的基本工作流程包括图像预处理、字符分割、特征提取和字符识别。预处理是...
获取图片的文字
2014-05-06 14:01

本话题主要围绕“获取图片的文字”这一主题，结合C#编程语言来探讨相关的技术实现和应用。在C#中，我们可以利用开源库或第三方服务来实现图像文字识别。常见的库有Tesseract OCR，这是一个由Google维护的开源OCR...
为什么你的C# OCR结果全是乱码？99%程序员踩过的坑都在这里
2025-04-26 16:34

墨瑾轩的博客注释：是我们的"文字猎人"，是"图片解码器"，二者组合就是"光学字符识别双人组"！注释：训练数据就像"字典"，没有它，Tesseract就像没带眼镜的近视眼，啥都认不清！注释：是"默认模式"，就像给猎人发了许可证，...
图像文字识别C#代码
2016-03-22 22:29

在C#编程环境中，开发人员可以利用各种库和API来实现这一功能。以下是一些关于C#图像文字识别的知识点，以及如何在实践中应用它们。 1. **Tesseract OCR引擎**： Tesseract是Google维护的一个开源OCR引擎，它支持...
C#实现PDF至图片转换及图片文字识别完整指南
2025-08-18 08:11

三七二十一的七的博客 C#（发音为“看”）是微软公司推出的一种面向对象的编程语言，它属于.NET框架的一部分。C#的设计理念是结合了Visual Basic的快速应用开发和C++的强大功能。其语言设计注重类型安全，且拥有垃圾回收机制，这使得C#在...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月27日

如何用C# tessdata获取文字和位置信息

2条回答 默认 最新

问题事件

2条回答默认最新