调整输入范围后如何增加LRCN模型的测试集准确率

我用torchvision提供的resnet152作为提取图片特征，结合LSTM，搭建了一个LRCN视频分类模型。在UCF101数据集上对模型进行训练。

torchvision要求的输入范围是[0, 1]，我需要重新调整为输入范围是[0, 255]。经过几个epoch，训练集的准确率达到了80%以上，但测试集的acc只有百分之几。请问如何提高测试集的acc？

import torch.nn as nn
import torch.nn.functional as F
import torch
from torch.autograd import Variable
from torchvision.models import resnet152, resnext50_32x4d
import pdb 

##############################
#         Encoder
##############################
class Encoder(nn.Module):
    def __init__(self, latent_dim):
        super(Encoder, self).__init__()
        resnet = resnext50_32x4d(pretrained=True)
        self.feature_extractor = nn.Sequential(*list(resnet.children())[:-1])
        self.final = nn.Sequential(
            nn.Linear(resnet.fc.in_features, latent_dim), nn.BatchNorm1d(latent_dim, momentum=0.01)
        )

    def forward(self, x):
        x = self.feature_extractor(x)
        x = x.view(x.size(0), -1)
        return self.final(x)


##############################
#           LSTM
##############################
class LSTM(nn.Module):
    def __init__(self, latent_dim, num_layers, hidden_dim, bidirectional):
        super(LSTM, self).__init__()
        self.lstm = nn.LSTM(latent_dim, hidden_dim, num_layers, batch_first=True, bidirectional=bidirectional)
        self.final = nn.Sequential(
            nn.Linear(2 * hidden_dim if bidirectional else hidden_dim, hidden_dim),
            nn.BatchNorm1d(hidden_dim, momentum=0.01),
            nn.ReLU(inplace=True),
            nn.Linear(hidden_dim, 101),
            nn.Softmax(dim=-1),
        )
        self.hidden_state = None

    def reset_hidden_state(self):
        self.hidden_state = None

    def forward(self, x):
        x, self.hidden_state = self.lstm(x, self.hidden_state)
        x = x[:, -1]
        x = self.final(x)
        return x


##############################
#         ConvLSTM
##############################
class OrigConvLSTM(nn.Module):
    def __init__(
        self, num_classes, latent_dim=512, lstm_layers=1, hidden_dim=1024, bidirectional=True):
        super(OrigConvLSTM, self).__init__()
        self.encoder = Encoder(latent_dim)
        self.lstm = LSTM(latent_dim, lstm_layers, hidden_dim, bidirectional)

    def forward(self, x):
        batch_size, seq_length, c, h, w = x.shape
        x = x.view(batch_size * seq_length, c, h, w)
        x = self.encoder(x)
        x_lstm = x.view(batch_size, seq_length, -1)
        x = self.lstm(x_lstm)
        return x, x.argmax(1)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

毕业设计：基于深度学习的黑暗场景人脸识别系统目标检测 人工智能
2024-02-28 17:45

HaiLang_IT的博客毕业设计：基于深度学习的黑暗场景人脸...实验结果表明，该系统在黑暗场景下仍能保持较高的识别准确率。为计算机毕业设计提供了一个创新的方向，结合了深度学习和计算机视觉技术，为毕业生提供了一个有意义的研究课题。
【AI视野·今日CV 计算机视觉论文速览第226期】Thu, 24 Jun 2021
2021-06-24 14:57

hitrjj的博客 AI视野·今日CS.CV 计算机视觉论文速览新型模型permutator，数据集，多模态数据集，模型
百度工程师漫谈视频理解
2023-02-28 14:55

百度Geek说的博客作为多媒体中重要的信息载体，视频的地位可以说是数一数二的，然而目前对于AI算法在视频上的应用还不够成熟，理解视频内容仍然是一个重要的问题亟待解决攻克。
DeepFake学习记录（不更新了，该方向直接劝退）
2020-03-31 15:43

kaidikake的博客模型准确率达到 92%。链接：论文地址 2、深度“打假”：通过眨眼检测“deepfake”视频文章链接不要让技术沦为抠图流量明星的新“捷径”。（这话说的对啊）在生成逼真的视频前，这个深层神经网络需要大量目标...
万字长文漫谈视频理解
2020-04-16 09:37

FesianXu的博客 AI算法已经渗入到了我们生活的方方面面，无论是购物推荐，广告推送，搜索引擎还是多媒体影音娱乐，都有AI算法的影子。作为多媒体中重要的信息载体，视频的地位可以说是数一数二的，然而目前对于AI算法在视频上的应用...
行为识别(HAR)调研
2016-09-25 15:55

Ddreaming的博客行为识别调研一、介绍、背景二、难点 1.类内和类间数据的差异。对于很多动作，本身就具有很大的差异性，例如不同人不同时刻的...1.Weizman-包含10种动作(走路、快跑、向前跳、测试跳、弯腰、挥单手、原地跳、
【学习】Deep Learning for Deepfakes Creation and Detection
2020-01-03 18:49

Reddoge_的博客训练集包含600,000张伪造和真实图像，而测试集包含10,000种两种类型的图像。实验结果表明，所提出的方法优于其竞争方法，例如[69 - 72]中引入的方法。【3.2 - Fake Video Detection】大多数图像检测方法不能...
如果我来做个「ZAO」换脸 app，全网最硬核换脸技术简析 (万字长文)
2019-09-06 11:30

上海小胖的博客最近，一款名为「ZAO」的 AI 换脸应用火爆了起来，在各大网站和朋友圈都看见它的身影，它可以通过用户上传的一张带有人脸的照片替换到视频的人脸中，效果非常逼真，引起轰动。因为「ZAO」团队并没有公开该软件...
从图像到语言:图像标题生成与描述
2021-05-03 21:11

苏州程序大白的博客从图像到语言:图像标题生成与描述 ... 如图 1 所示,首先对图像中的视觉内容进行解析,将其转换成视觉语义编码,然后根据编码内容进行解码,将其映射到语言空间中,生成相关词汇,并组合成用词准确、结构合理的自然语言。本
基于LSTM和CNN的动作识别
2024-01-17 15:44

新缸中之脑的博客在本博客中，我们将使用 UCF101 数据集深入探索动作识别的迷人世界。动作识别是计算机视觉中的一项关键任务，其应用范围从监视到人机交互。UCF101 数据集是我们进行此探索的游乐场。我们的目标是建立一个结合卷积...
全网最硬核换脸技术全分析ZAO换脸App
2019-09-05 08:45

猿同学的博客简介最近，一款名为「ZAO」的 AI 换脸应用火爆了起来，在各大网站和朋友圈都看见它的身影，它可以通过用户上传的一张带有人脸的照片替换到视频的人脸中，效果非常逼真，引起轰...
MATLAB算法实战应用案例精讲-【数据分析】时序异常检测（补充篇）（附Java、R语言和python代码实现）
2023-01-10 09:29

林聪木的博客在大数据时代，时间序列分析已经成为 AI 技术的一个分支，通过将时间序列分析与分类模型相结合，更好的应用于数据检测、预测等场景。重构误差阈值设定的方法Doyle于1962年提出的P-Tile (即P分位数法)可以说是最古老...
【时空序列】使用3D卷积网络学习时空特征
2020-08-29 16:40

AI蜗牛车的博客原文链接：https://www.jianshu.com/p/09d1d8ffe8a4作者：钟速整理：AI蜗牛车摘要针对时空特征的学习，我们提出了一个简单有效的方法，在大规模有监督视频...
百度Paddle视频分类论文3D Resnet论文复现
2020-10-16 16:01

潜沉10的博客前段时间参加了百度深度学习论文复现营——视频分类论文复现，在此做一些学习记录，希望可以帮助到有需要的朋友学习资源百度顶会论文复现营 ...数据集： HMDB-51 （2011） UCF-101（20
[转载]行为识别相关资料
2019-05-10 13:13

打酱猪的博客 1)LSTM将底层CNN的输出链接起来作为下一时刻的输入，在UCF101数据库上获得82.6%识别率 Ng J Y H, Hausknecht M, Vijayanarasimhan S, Vinyals O, Monga R, Toderici G. Beyond short snippets: deep networks ...
《Multimodal Gesture Recognition Using 3-D Convolution and Convolutional LSTM》译文
2018-03-13 16:46

gzj_1101的博客手势识别旨在识别有意义的人体运动，并且在智能人机/机器人交互中是至关重要的。在本文中，我们提出了一种基于三维卷积和卷积长短期记忆（LSTM）网络的多模式手势识别方法。该方法首先通过三维卷积神经网络学习...
行为识别相关资料
2017-04-25 20:24

JerrySing的博客行为识别调研一、介绍、背景 ...1.类内和类间数据的差异。对于很多动作，本身就具有很大的差异性，例如不同人不同时刻的行走动作在...1.Weizman-包含10种动作(走路、快跑、向前跳、测试跳、弯腰、挥单手、原地
视频行为识别相关资料
2017-08-29 17:22

twinkle_star1314的博客行为识别相关资料行为识别调研一、介绍、背景 ...对于很多动作，本身就具有很大的差异性，例如不同人不同时刻的行走动作在速度或步长上就具有差异性。...1.Weizman-包含10种动作(走路、快跑、向前跳、测试跳
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月31日

悬赏问题

¥15 有了解d3和topogram.js库的吗？有偿请教
¥100 任意维数的K均值聚类
¥15 stamps做sbas-insar，时序沉降图怎么画
¥15 unity第一人称射击小游戏，有demo，在原脚本的基础上进行修改以达到要求
¥15 买了个传感器，根据商家发的代码和步骤使用但是代码报错了不会改，有没有人可以看看
¥15 关于#Java#的问题，如何解决？
¥15 加热介质是液体，换热器壳侧导热系数和总的导热系数怎么算
¥100 嵌入式系统基于PIC16F882和热敏电阻的数字温度计
¥15 cmd cl 0x000007b
¥20 BAPI_PR_CHANGE how to add account assignment information for service line

调整输入范围后如何增加LRCN模型的测试集准确率

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新