於菟601 2022-05-13 14:26 采纳率: 50%

已结题

字符识别训练出来的模型识别率太差，是否配置有误？

问题遇到的现象和发生背景

正在进行一个字符识别模型的训练，跑了两个多小时最后保存的模型却识别率极低，而且不见中文（省）结果：

怀疑可能配置或者数据集出了点问题

问题相关代码，请勿粘贴截图

配置如下：
import warnings
import torch as t

class DefaultConfig(object):
env = 'default' # visdom 环境
vis_port =8097 # visdom 端口
model = 'SqueezeNetGray' # 使用的模型，名字必须与models/init.py中的名字一致
classifier_num = 65 # 分类器最终的分类数量
gray = True # 读取图片是否为灰度图

train_data_root = './imgs/images/cnn_char_train/'  # 训练集存放路径
test_data_root = './data/test/char/'  # 测试集存放路径
load_model_path = None  # 加载预训练的模型的路径，为None代表不加载

batch_size = 16  # batch size
use_gpu = True  # user GPU or not
num_workers = 0  # how many workers for loading data
print_freq = 20  # print info every N batch

debug_file = '/tmp/debug'  # if os.path.exists(debug_file): enter ipdb
result_file = 'result.csv'
id_file = './findplate/plate.csv'

max_epoch = 100
lr = 0.001  # initial learning rate
lr_decay = 0.5  # when val_loss increase, lr = lr*lr_decay
weight_decay = 0e-5  # 损失函数


def _parse(self, kwargs):
    """
    根据字典kwargs 更新 config参数
    """
    for k, v in kwargs.items():
        if not hasattr(self, k):
            warnings.warn("Warning: opt has not attribut %s" % k)
        setattr(self, k, v)
    
    self.device =t.device('cuda') if self.use_gpu else t.device('cpu')


    print('user config:')
    for k, v in self.__class__.__dict__.items():
        if not k.startswith('_'):
            print(k, getattr(self, k))

opt = DefaultConfig()

训练部分如下：

from findplate.config import opt
import os
import torch as t
from findplate import models
from findplate.data.dataset import MyDataset
from torch.utils.data import DataLoader
from torchnet import meter
from findplate.utils.visualize import Visualizer
from tqdm import tqdm
from torchvision import transforms as T

def write_csv(results,file_name,col1_name,col2_name):
import csv
with open(file_name,'w',newline='') as f:
writer = csv.writer(f)
writer.writerow([col1_name,col2_name])
writer.writerows(results)

def train(**kwargs):
opt._parse(kwargs)
vis = Visualizer(opt.env,port = opt.vis_port)

# step1: configure model
model = getattr(models, opt.model)()
if opt.load_model_path:
    model.load(opt.load_model_path)
model.to(opt.device)

# step2: data
train_data = MyDataset(opt.train_data_root,train=True)
val_data = MyDataset(opt.train_data_root,train=False)
train_dataloader = DataLoader(train_data,opt.batch_size,
                    shuffle=True,num_workers=opt.num_workers)
val_dataloader = DataLoader(val_data,opt.batch_size,
                    shuffle=False,num_workers=opt.num_workers)
# write id and classes into csv file
data_id_to_class = []
label_idx = 0
for label_name in train_data.data_classes:
    data_id_to_class.append([label_idx, label_name])
    label_idx += 1
print(data_id_to_class)
id_file_name = opt.id_file
write_csv(data_id_to_class,id_file_name,'label_idx','label_name')

# step3: criterion and optimizer
criterion = t.nn.CrossEntropyLoss()
lr = opt.lr
optimizer = model.get_optimizer(lr, opt.weight_decay)
    
# step4: meters
loss_meter = meter.AverageValueMeter()
confusion_matrix = meter.ConfusionMeter(opt.classifier_num)
previous_loss = 1e10

# train
for epoch in range(opt.max_epoch):
    
    loss_meter.reset()
    confusion_matrix.reset()

    for ii,(data,label) in tqdm(enumerate(train_dataloader)):

        # train model 
        input = data.to(opt.device)
        target = label.to(opt.device)


        optimizer.zero_grad()
        score = model(input)
        loss = criterion(score,target)
        loss.backward()
        optimizer.step()
        
        
        # meters update and visualize
        loss_meter.add(loss.item())
        # detach 一下更安全保险
        confusion_matrix.add(score.detach(), target.detach()) 

        if (ii + 1)%opt.print_freq == 0:
            vis.plot('loss', loss_meter.value()[0])
            
            # 进入debug模式
            if os.path.exists(opt.debug_file):
                import ipdb;
                ipdb.set_trace()


    model.save()

    # validate and visualize
    val_cm,val_accuracy = val(model,val_dataloader)

    vis.plot('val_accuracy',val_accuracy)
    vis.log("epoch:{epoch},lr:{lr},loss:{loss},train_cm:{train_cm},val_cm:{val_cm}".format(
                epoch = epoch,loss = loss_meter.value()[0],val_cm = str(val_cm.value()),train_cm=str(confusion_matrix.value()),lr=lr))
    
    # update learning rate
    if loss_meter.value()[0] > previous_loss:          
        lr = lr * opt.lr_decay
        # 第二种降低学习率的方法:不会有moment等信息的丢失
        for param_group in optimizer.param_groups:
            param_group['lr'] = lr
    

    previous_loss = loss_meter.value()[0]

@t.no_grad()
def val(model,dataloader):
"""
计算模型在验证集上的准确率等信息
"""
model = model.eval()

confusion_matrix = meter.ConfusionMeter(opt.classifier_num)
for ii, (val_input, label) in tqdm(enumerate(dataloader)):
    val_input = val_input.to(opt.device)
    score = model(val_input)
    confusion_matrix.add(score.detach().squeeze(), label.type(t.LongTensor))

model.train()
cm_value = confusion_matrix.value()
cm_value_sum = 0
for i in range(opt.classifier_num):
    cm_value_sum += cm_value[i][i]
accuracy = 100. * (cm_value_sum) / (cm_value.sum())
return confusion_matrix, accuracy

def help():
"""
打印帮助的信息： python file.py help
"""

print("""
usage : python file.py <function> [--args=value]
<function> := train | test | help
example: 
        python {0} train --env='env0701' --lr=0.01
        python {0} test --dataset='path/to/dataset/root/'
        python {0} help
avaiable args:""".format(__file__))

from inspect import getsource
source = (getsource(opt.__class__))
print(source)

if name=='main':
import fire
fire.Fire()

所采用的卷积网络模型如下：

from torchvision.models import squeezenet1_1
from findplate.models.basic_module import BasicModule
from torch import nn
from torch.optim import Adam

class SqueezeNetGray(BasicModule):
def init(self, num_classes=65):
super(SqueezeNetGray, self).init()
self.model_name = 'squeezenet_gray'
self.model = squeezenet1_1(pretrained=False)
# 修改原始的num_class: 预训练模型是1000分类
self.model.num_classes = num_classes
self.model.classifier = nn.Sequential(
nn.Dropout(p=0.5),
nn.Conv2d(512, num_classes, 1),
nn.ReLU(inplace=True),
nn.AvgPool2d(13, stride=1)
)

def forward(self,x):
    return self.model(x)

def get_optimizer(self, lr, weight_decay):
    # 因为使用了预训练模型，我们只需要训练后面的分类
    # 前面的特征提取部分可以保持不变
    return Adam(self.model.classifier.parameters(), lr, weight_decay=weight_decay)

测试集：

测试集同名，数据较少，路径在配置中

我想要达到的结果

希望各位能给点改进的思路，或者指出我的错误，谢谢。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
於菟601 2022-05-13 14:41
关注
现在放的测试图片是整个系统的测试图片，训练字符模块使用的是二值图，详见数据集部分，在进行字符识别模块的测试时，也会把输入的车牌模块提取车牌、字符分割、转二值图后再输入字符识别模块

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

c语言的switch只能识别字符类型吗？ c语言
2021-06-04 22:43

回答 3 已采纳你的代码中case '1/a'是不对的，1/a不是一个字符，是一个字符串。在switch（num/ch）中，编译器会把ch转成int类型，然后计算num除以ch的值，然后用这个值去找case，ca
该字符串未被识别为有效的datetime？ asp.net c# visual studio
2020-05-31 00:29

回答 1 已采纳 TextBox4的内容作为日期，格式不对具体要看你TextBox4的内容是什么如果是不标准的格式，可以用 DateTime.ParseExact 指定你的日期格式来输入 https://ww
关于用matlab车牌识别，识别字符时出现索引超出矩阵维度怎么办？求解 matlab 有问必答
2021-09-29 20:24

回答 1 已采纳你好同学，你的liccode长度只有37，其中包含10个数字、26个字母、一个汉字‘豫’。而你给出的： if l==1%第一位汉字识别 kmin=37; kmax=43; kmax是超出了37，所以
python车牌识别使用训练集_基于Python 实现的车牌识别项目
2021-01-30 04:12

ygao.233的博客简介车牌识别系统(Vehicle License Plate Recognition)是计算机视频图像识别技术在车辆牌照识别中的一种应用，通常一个车牌识别系统主要包括以下这四个部分：车辆图像获取车牌定位车牌字符分割车牌字...
怎么用Java识别字符画的内容 java
2022-11-07 15:43

回答 3 已采纳参考链接,希望有帮助用Java生成字符画_gmemai的博客-CSDN博客 ASCII码艺术是一种技术，它利用ASCII标准中的可打印字符
怎么设计一个类内函数，去识别字符并且计数？ c++
2022-04-25 17:52

回答 1 已采纳 #include <iostream> #include <vector> using namespace std; //疫苗种类 enum VACCINE_TYPE {
c++如何识别指定字符串？ c++
2018-07-12 03:13

回答 10 已采纳 VS2017,C++11,如图![图片说明](https://img-ask.csdn.net/upload/201807/19/1531930919_435586.png)
车牌字符识别LPRNet：License Plate Recognition via Deep Neural Networks
2019-10-17 15:38

huangyiping_dream的博客其后包含实践和理解参考文献： Zherzdev S , Gruzdev A . LPRNet: License Plate Recognition via Deep Neural ...用CCPD数据集测试结果如下，“皖”的识别率很好，怀疑该模型是否采用了CCPD作为训练集。
java处理隐藏字符串的问题，识别清除非法字符 java javascript
2017-12-27 09:40

回答 17 已采纳如果针对手机号，可以用正则匹配下，去掉数字以外的字符,str.replaceAll("[^0-9]", "")
C语言小菜鸟#统计相同字符的个数，哪里有误？为啥个数总是0？ c语言
2019-03-29 21:21

回答 1 已采纳原因：因为指针*p是指向数组c的，对p[i]赋值就是直接对c[i]里的值进行改变改法：改的方式要么把*p改为p[100]就行或者删掉*p,直接在 p[i]=toupper(c[i]);输出prin
识别years前有几个数字当字符，将这些数字转换成整数，再把整数转换成字符串，与years连接后显示出来 c++ c语言
2022-04-16 10:02

回答 1 已采纳 #include <stdio.h> #include <string.h> #include <stdlib.h> int main() { char
Datawhale-天池街景字符识别赛题 Task4 模型训练与验证
2020-05-30 19:50

夜灬凄美的博客在上一章节我们构建了一个简单的CNN进行训练，并可视化了训练过程中的误差损失和第一个字符预测准确率，但这些还远远不够。一个成熟合格的深度学习训练流程至少具备以下功能：在训练集上进行训练，并在验证集上...
sql组装成json字符串将+号之间识别为了字符串 sql
2022-04-08 23:57

回答 1 已采纳 S.ENUM_CUTLEVEL 这个字段cast一下,转成varchar,估计你这个字段是个int类型,它就把这个加号当成了真正的加法,然后又发现前面这个参数无法转换成int,就报错了。建议把每个字段
零基础入门cv赛事街道字符识别----Task4模型训练与验证
2020-05-30 21:25

lcx_nanmu的博客文章目录4 模型训练与验证4.1 学习目标4.2 构造验证集训练集（Train Set）：模型用于训练和调整模型参数；验证集（Validation Set）：用来验证模型精度和调整模型超参数；测试集（Test Set）：验证模型的泛化能力。...
OCR字符识别技术总览
2022-04-11 14:22

菜菜的tunning的博客 OCR字符识别技术总览
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月13日

悬赏问题

¥15 chaquopy python 安卓
¥50 Kubernetes&Fission&Eleasticsearch
¥15 CSS实现渐隐虚线框
¥15 有没有帮写代码做实验仿真的
¥15 報錯：Person is not mapped，如何解決？
¥30 vmware exsi重置后登不上
¥15 易盾点选的cb参数怎么解啊
¥15 MATLAB运行显示错误，如何解决？
¥15 c++头文件不能识别CDialog
¥15 Excel发现不可读取的内容