AV1内tune=ssim的情况下的rdo模型是什么样的

有人知道aom编码器内部在--tune=ssim的情况下是如何进行调整拉个朗日乘子的吗？
源代码内会调用 av1_set_mb_ssim_rdmult_scaling函数设置对rdmult的缩放因子，但是为什么这样设置有人知道吗，它的rdo模型是怎么样的？特别是里面那个指数函数拟合代表什么意思？

void av1_set_mb_ssim_rdmult_scaling(AV1_COMP *cpi) {
  const CommonModeInfoParams *const mi_params = &cpi->common.mi_params;
  const MACROBLOCKD *const xd = &cpi->td.mb.e_mbd;
  uint8_t *y_buffer = cpi->source->y_buffer;
  const int y_stride = cpi->source->y_stride;
  const int block_size = BLOCK_16X16;

  const int num_mi_w = mi_size_wide[block_size];
  const int num_mi_h = mi_size_high[block_size];
  const int num_cols = (mi_params->mi_cols + num_mi_w - 1) / num_mi_w;
  const int num_rows = (mi_params->mi_rows + num_mi_h - 1) / num_mi_h;
  double log_sum = 0.0;

  // Loop through each 16x16 block.
  for (int row = 0; row < num_rows; ++row) {
    for (int col = 0; col < num_cols; ++col) {
      double var = 0.0, num_of_var = 0.0;
      const int index = row * num_cols + col;

      // Loop through each 8x8 block.
      for (int mi_row = row * num_mi_h;
           mi_row < mi_params->mi_rows && mi_row < (row + 1) * num_mi_h;
           mi_row += 2) {
        for (int mi_col = col * num_mi_w;
             mi_col < mi_params->mi_cols && mi_col < (col + 1) * num_mi_w;
             mi_col += 2) {
          struct buf_2d buf;
          const int row_offset_y = mi_row << 2;
          const int col_offset_y = mi_col << 2;

          buf.buf = y_buffer + row_offset_y * y_stride + col_offset_y;
          buf.stride = y_stride;

          var += av1_get_perpixel_variance_facade(cpi, xd, &buf, BLOCK_8X8,
                                                  AOM_PLANE_Y);
          num_of_var += 1.0;
        }
      }
      var = var / num_of_var;

      // Curve fitting with an exponential model on all 16x16 blocks from the
      // midres dataset.
      var = 67.035434 * (1 - exp(-0.0021489 * var)) + 17.492222;

      // As per the above computation, var will be in the range of
      // [17.492222, 84.527656], assuming the data type is of infinite
      // precision. The following assert conservatively checks if var is in the
      // range of [17.0, 85.0] to avoid any issues due to the precision of the
      // relevant data type.
      assert(var > 17.0 && var < 85.0);
      cpi->ssim_rdmult_scaling_factors[index] = var;
      log_sum += log(var);
    }
  }

  // As log_sum holds the geometric mean, it will be in the range
  // [17.492222, 84.527656]. Hence, in the below loop, the value of
  // cpi->ssim_rdmult_scaling_factors[index] would be in the range
  // [0.2069, 4.8323].
  log_sum = exp(log_sum / (double)(num_rows * num_cols));

  for (int row = 0; row < num_rows; ++row) {
    for (int col = 0; col < num_cols; ++col) {
      const int index = row * num_cols + col;
      cpi->ssim_rdmult_scaling_factors[index] /= log_sum;
    }
  }
}

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
香格里辣 2024-11-06 22:47
关注
以下回复参考：皆我百晓生、券券喵儿等免费微信小程序作答:

这段代码是用于设置AV1编码器的拉格朗日乘子缩放因子的函数，特定的场景是当编码器使用--tune=ssim选项时。SSIM（结构相似性度量）是一种用于评估图像质量的指标，该函数的目标是根据SSIM标准调整编码器的决策过程以优化图像质量。具体来说，该函数计算每个宏块（Macroblock）的方差，并使用这个方差值来调整拉格朗日乘子缩放因子。下面简要描述该函数的操作和背后的RDO（Rate-Distortion Optimization）模型：

函数首先计算每个宏块的方差（用于表示图像局部区域的纹理复杂程度）。这里对每个宏块内部的多个小宏块进行遍历，并计算其像素方差。这是基于观察到的图像纹理复杂度和SSIM之间的关系。方差越大，意味着图像纹理越复杂。
然后，函数使用一种指数模型来调整计算出的方差值。这可能是为了校正原始的方差值或将其转换到某个特定范围。这步操作的目的是将方差映射到一个合适的范围，以便于后续的使用。具体来说，此步骤的目的是调整优化问题的目标函数权重，这些权重会影响编码器的决策过程。
函数接着计算所有宏块的几何平均方差（通过计算所有宏块方差的自然对数的平均值然后取指数得到）。这个几何平均方差代表了整个帧的“平均纹理复杂性”。这一步的目的是为了对之前计算出的缩放因子进行进一步的归一化。
最后，函数将每个宏块的缩放因子除以几何平均方差值。这样做是为了确保所有宏块的缩放因子相对于整个帧的复杂度都有一个相对合理的比例。这一步的目的是确保编码器的决策过程不仅考虑单个宏块的特性，还考虑整个帧的上下文信息。

总的来说，这个函数通过计算每个宏块的方差并根据这些方差值来调整拉格朗日乘子缩放因子，从而优化AV1编码器的决策过程以改善图像的SSIM质量。背后的RDO模型是通过对整个帧的复杂度进行建模并利用这些复杂度信息来调整优化问题的目标函数权重来实现的。这样可以使编码器在权衡码率和失真时更加精准，以达到更好的编码效果。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

AV1 编解码器编译以及使用
2022-06-27 10:49

FangZ142的博客 AV1编解码器编译以及使用
FFmpeg开发 Windows环境集成AV1编码器librav1e完整指南
2025-07-24 22:14

csdn_tom_168的博客本文提供了在Windows环境下集成AV1编码器librav1e到FFmpeg的完整指南。主要内容包括：1）通过MSYS2环境准备必要的编译工具链；2）三种rav1e库安装方法（源码编译、MSYS2包管理、预编译版本）；3）FFmpeg源码下载与...
音视频开发30 FFmpeg 视频编码- 流程以及重要API,H264编码原理说明，该章节使用h264编码说明
2024-06-27 14:18

hunandede的博客一.H264编码原理 1 视频为什么需要进行编码压缩 ◼ 一张为 720x480 的图像，用 YUV420P 的格式来表示，其大小为： 720*480*1.5 约等于 0.5MB 。 ◼ 如果是 25 帧， 10 分钟的数据量 0.5M*10*60*25 = 7500MB -> 7GB ...
libaom 编码器 aomenc 使用文档介绍
2024-07-09 11:06

码流怪侠的博客 2） AV1特定选项： --cpu-used= 速度设置（在良好模式下0…6，在实时模式下5…11，在所有内模式下0…9） --auto-alt-ref= 启用自动alt参考帧 --sharpness= 在变换系数的速率失真优化中偏向块锐度（0…7），默认为0 -...
libaom 源码分析：aomenc.c 文件
2024-10-15 22:48

码流怪侠的博客 libaom libaom 是 AOMedia（开放媒体联盟）开发的一个开源视频编解码器库，它是 AV1 视频压缩格式的参考实现，并被广泛用于多种生产系统中。libaom 支持多种功能，包括可扩展视频编码（SVC）、实时通信（RTC）优化等...
音视频系列3：编解码技术
2020-07-09 18:54

IE06的博客 FOURCC是一个4个字节32位的标识符，通常用来标示视频数据流的格式，播放软件可以通过查询FOURCC代码并寻找对于解码器来播放特定视频流，取值通常由各个格式标准自行定义，如DIV3、DIVX等。 DCT类似于只使用实数且...
AV1 参考软件参数说明（AV1 Settings）
2018-06-13 18:03

yue_huang的博客 Usage: ./aomenc &amp;amp;amp;amp;amp;amp;lt;options&amp;amp;amp;amp;amp;amp;gt; -o dst_filename src_filename AV1 选项 # Rate Control Options（）
【AV1 编码器研究一】aomenc.exe命令行参数简析
2020-03-28 23:14

编码如山的博客 aomenc将命令行分成通用命令、编码器全局选项、码率控制选项、Twopass码率控制选项、关键帧设置选项、AV1 特定选项这六类。对于一般用户来说，单纯的离线压缩任务只需指定下文中通用命令、编码器全局选项中相关的...
AI视觉，视频云新挑战的解决之道
2020-11-26 08:10

LiveVideoStack_的博客正文字数：4204 阅读时长：6分钟AI就像一个加速器，正在渗透在多媒体应用的方方面面，改进甚至颠覆传统的图像视频处理方法。本文整理自腾讯云高级研发工程师刘兆瑞在LiveVideoSt...
【信息科学与工程学】计算机科学与自动化——第六篇多媒体03
2026-05-06 21:02

flyair_China的博客多媒体领域核心算法该表格涵盖了图像处理、视频编码、音频处理及生成式AI等关键方向。编号类型算法名称算法逐步推理思考的数学方程表达式算法执行的时序方程式常量/向量/张量/变量/参数列表算法的应用场景 ...
宋利：编码既是技术也是艺术
2017-12-20 00:00

LiveVideoStack_的博客本文是『下一代编解码』系列采访的第6篇，邀请到了上海交通大学任研究员，博士生导师宋利，他全面的解读了编解码器的现状与未来趋势。LiveVideoStack：请简要介绍下自己，以及目前主要的工作方向，对
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 11月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月6日

AV1内tune=ssim的情况下的rdo模型是什么样的

1条回答 默认 最新

问题事件

1条回答默认最新