moongarden5 2026-04-07 09:28 采纳率: 0%

paddle文字识别：制作数据集时怎么处理竖向排布的集装箱号

现在用的2.7版本训练识别集装箱号，正常横向书写的能正常训练，效果不错。但是竖向排布的集装箱号该怎么处理？用ppocrlabel标注就只直接用四点标注一个框将整个集装箱号都框完的，然后导出rec训练图片自动左旋转90度，我目前训练就是将其和正常横向书写的图片放一起直接训练的，但是训练出来对的模型，用左旋转90度的图片测试，就是乱七八糟的一串。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2026-04-07 09:29
关注
上午好☀️☀️☀️️
本答案参考通义千问

在使用 PaddlePaddle 的 PP-OCR 进行文字识别时，处理竖向排布的集装箱号是一个比较常见的问题。尤其是当训练数据中包含横向和竖向两种排布的文字时，模型需要具备一定的旋转鲁棒性（即对图像旋转后的识别能力）。你目前的做法是将竖向文本通过标注为一个框后，自动左旋转90度进行训练，但发现效果不佳。

一、问题分析

标注方式不准确：
使用四点标注整个竖向集装箱号作为一个框，会导致模型无法区分其中的每个字符，进而影响识别效果。

数据增强不足：
如果只通过简单的旋转来模拟竖向文本，模型可能无法真正理解“竖向排布”的语义，导致识别失败。

训练数据不平衡：
横向与竖向样本数量差异大，或没有对竖向样本进行充分的数据增强，也会导致模型对竖向文本识别效果差。

二、解决方案

1. 正确标注竖向文本

重点建议：

不要将整个竖向集装箱号作为一个框标注，而是应该逐个字符标注。

原因：

识别模型（如 CRNN 或 Transformer）依赖于字符级别的标注。
将多个字符合并成一个框，会误导模型学习到错误的特征。

正确做法：

使用 ppocrlabel 工具，逐个字符标注竖向排布的集装箱号。
确保每个字符的坐标信息准确，包括位置、方向和大小。

2. 增加数据增强策略

重点建议：

添加旋转、翻转、仿射变换等数据增强手段，提升模型对不同方向文本的适应能力。

示例代码（修改配置文件）：

Train: dataset: type: SimpleDataSet data_dir: ./train_data/ label_file_list: - ./train_data/train_label.txt transforms: - type: RotateAugment max_rotation_degree: 90 prob: 0.5 - type: RandomCrop size: [640, 640] padding: [0, 0, 0] - type: Normalize mean: [0.485, 0.456, 0.406] std: [0.229, 0.224, 0.225] scale: 1.0 / 255.0

说明：

RotateAugment 可以让模型学习到不同角度下的文字识别能力。
你可以根据实际需求调整旋转范围（比如 0° 到 180°）。

3. 统一训练数据格式

重点建议：

确保所有训练数据（横向和竖向）都采用一致的标注格式，并且包含正确的文本内容。

推荐的标注格式（txt 文件）：

img_1.jpg ABCD1234 img_2.jpg EFGH5678 ...

对于竖向文本，确保其对应的图片已经被正确旋转或标注为竖向排列。

4. 使用多方向文本识别模型

重点建议：

考虑使用支持多方向文本识别的模型，如 PP-OCRv3 或 PaddleDetection + OCR 结合方案。

推荐模型：

PP-OCRv3：支持多种排版（横、竖、斜）。
PP-Structure：可识别表格、多方向文本等复杂场景。

5. 调整训练参数，提高竖向文本识别精度

重点建议：

增加竖向文本的训练权重，或使用类别平衡策略。

示例代码（修改训练脚本）：

from paddle.io import DataLoader from paddle.nn import CrossEntropyLoss from paddle.optimizer import AdamW # 定义损失函数 loss_fn = CrossEntropyLoss() # 定义优化器 optimizer = AdamW(model.parameters(), learning_rate=1e-4) # 添加权重（可选） class_weights = [1.0, 2.0] # 假设第1类为竖向文本，权重更高 loss_fn.weight = class_weights

说明：

如果你的数据集中竖向文本较少，可以适当增加其权重，帮助模型更好地学习。

三、推荐工作流程

使用 ppocrlabel 标注工具，逐个字符标注竖向集装箱号。
构建训练数据集，包含横向和竖向文本。
添加旋转、翻转等数据增强策略。
使用 PP-OCRv3 或其他高级模型进行训练。
测试模型时，输入原始图片，不手动旋转，让模型自行判断方向。

四、示例代码：标注文件结构（txt）

images/vertical_container_01.jpg ABCDEFGHIJKL images/vertical_container_02.jpg MNOPQRSTUVWXYZ images/horizontal_container_01.jpg 1234567890 images/horizontal_container_02.jpg ABC123XYZ

五、总结

| 问题 | 解决方案 | |------|----------| | 标注方式错误 | 逐个字符标注竖向文本 | | 数据增强不足 | 添加旋转、翻转等增强策略 | | 训练数据不平衡 | 增加竖向文本权重或数据量 | | 模型选择不当 | 使用 PP-OCRv3 等支持多方向文本的模型 |

如果你有具体的标注文件或训练日志，也可以提供给我，我可以帮你进一步分析模型表现并提出优化建议。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

OCR识别精度提升50%：PaddlePaddle-v3.3云端实测教程
2026-01-15 02:40

TurquoiseSea98的博客本文介绍了如何在星图GPU平台自动化...基于该镜像，用户可零成本实测PP-OCRv3模型，在票据、文档等场景中实现文字识别准确率提升近50%，显著优化数据标注与信息提取效率，适用于金融、医疗等行业的AI应用开发与验证。
51c大模型~合集179
2025-09-07 00:16

whaosoft-143的博客 OpenAI 举了个例子，当向不同的广泛使用的聊天机器人询问 Adam Tauman Kalai（论文一作）的博士论文标题时，它们自信地给出了三个不同的答案，但没有一个是正确的。例如，当被要求回答毛利语问题时，一个不懂毛利语...
IT 常用词汇（一）
2017-08-21 19:39

衣舞晨风的博客大储藏箱宽口箱(如面包箱, 垃圾箱等) 130@Binary@adj. 二元的，二态的；二进制的 131@Binary Distributions@ 132@bio@n. 个人简历，小传 133@bitwise@n. 按位 134@biz@n. [俚]商业（等于business） 135@blazing@...
现代OCR技术全解析：从文本定位到语义结构化
2019-04-09 17:49

R芮R的博客光学字符识别（OCR）已超越传统‘图像转文字’的单一任务，演进为融合计算机视觉与自然语言处理的多阶段视觉理解系统。其核心原理涵盖文本定位（Text Localization）、文本检测（Text Detection）、序列识别与语义...
英语基础词汇
2022-02-19 11:52

神也小忐忑的博客装瓶 driver ['draɪvə] n.驾驶员 discount ['dɪskaʊnt] n.折扣；贴现(率) vt.打折扣;不重视 justice ['dʒʌstɪs] n.公正公平;审判司法 jungle ['dʒʌŋg(ə...
分子生物学词汇
2007-03-07 15:16

麦子_9的博客 A band A带 A chromosome A染色体[二倍体染色体组中的正常染色体（不同于B染色体）] A site [核糖体]A部位 ABA 脱落酸 abasic site 脱碱基位点，无碱基位点 ... acropetal translocation 向...
超全的英语短句汇集
2005-02-27 23:14

AppleBBS的博客今天是几号？ 94. it's january the 15th, 1999. 今天是1999年1月15日。 95. what month is this? 现在是几月？ 96. it's december. 现在是十二月。 97. what year is this? 今年是哪一年...
English 900 英语九百句
2004-08-22 10:13

yuanqingfei的博客今天是几号？ 94. it's january the 15th, 1999. 今天是1999年1月15日。 95. what month is this? 现在是几月？ 96. it's december. 现在是十二月。 97. what year is this? 今年是哪一年...
基于PaddleOCR2.4的【常规赛：中文场景文字识别】Baseline
2022-01-08 08:39

AI Studio的博客基于PaddleOCR2.4 中文场景文字识别，对比赛提供的数据进行预处理，选择CRNN网络，加载预训练模型进行快速训练并预测，从而快速实现中文场景文字识别。
【Paddle打比赛】全球人工智能技术创新大赛-商品标题实体识别竞赛_副本
2022-03-05 16:28

AI Studio的博客基于PaddleNLP，从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月7日

码龄粉丝数原力等级 --

paddle文字识别：制作数据集时怎么处理竖向排布的集装箱号

2条回答默认最新

码龄粉丝数原力等级 --

一、问题分析

二、解决方案

1. 正确标注竖向文本

原因：

正确做法：

2. 增加数据增强策略

示例代码（修改配置文件）：

3. 统一训练数据格式

推荐的标注格式（txt 文件）：

4. 使用多方向文本识别模型

推荐模型：

5. 调整训练参数，提高竖向文本识别精度

示例代码（修改训练脚本）：

三、推荐工作流程

四、示例代码：标注文件结构（txt）

五、总结

问题事件

码龄粉丝数原力等级 --

paddle文字识别：制作数据集时怎么处理竖向排布的集装箱号

2条回答 默认 最新

一、问题分析

二、解决方案

1. 正确标注竖向文本

原因：

正确做法：

2. 增加数据增强策略

示例代码（修改配置文件）：

3. 统一训练数据格式

推荐的标注格式（txt 文件）：

4. 使用多方向文本识别模型

推荐模型：

5. 调整训练参数，提高竖向文本识别精度

示例代码（修改训练脚本）：

三、推荐工作流程

四、示例代码：标注文件结构（txt）

五、总结

问题事件

2条回答默认最新