m0_66867040 2022-12-02 10:52 采纳率: 0%
浏览 28

gumble softmax怎么反向求梯度

gumble softmax在强化学习中代替logistic函数之后要怎么反向求梯度,最好是数学上的,谢谢

  • 写回答

1条回答 默认 最新

  • 憧憬blog 2023-05-18 09:47
    关注

    参考GPT和自己的思路:首先,为了更好地理解Gumbel-Softmax的反向梯度计算过程,我们需要先了解Gumbel-Max Trick和Gumbel分布。

    Gumbel-Max Trick是一个方法,它可以通过从Gumbel分布中采样来实现从softmax分布中采样的近似。Gumbel分布可以用来模拟一组随机变量中的最大值,它是由两个随机变量的和组成的,其中一个是从标准Gumbel分布中采样,另一个是我们想要近似的概率分布的对数。

    在Gumbel-Max Trick中,我们通过对softmax输入的对数进行相加,然后加上从Gumbel分布中采样的实数值,并取这些值的最大值来模拟从softmax分布中进行采样。这样,我们就可以使用Gumbel-Softmax代替softmax函数。

    对于Gumbel-Softmax的反向梯度计算,我们可以使用重参数化技巧,这个技巧通过将轻微的噪声添加到采样过程中,将采样的过程显式地与输入分离,从而使结果可以被反向传播。我们可以使用Gumbel分布来生成这个噪声,然后使用一个可微分的变换函数将其合并到原始输入中,也就是在原始输入中添加一份噪声,然后再进行softmax运算。

    具体地说,我们可以通过将采样值与噪声值相加,使用Gumbel-Max Trick来实现向前传递。对于反向传播,我们可以应用链式法则和重参数化技巧,得到Gumbel-Softmax的梯度。

    总之,Gumbel-Softmax是通过使用Gumbel分布和重参数化技巧实现的,可以用于替代softmax函数,并可以进行反向传播计算梯度。

    评论

报告相同问题?

问题事件

  • 创建了问题 12月2日

悬赏问题

  • ¥15 有偿求苍穹外卖环境配置
  • ¥15 代码在keil5里变成了这样怎么办啊,文件图像也变了,
  • ¥20 Ue4.26打包win64bit报错,如何解决?(语言-c++)
  • ¥15 clousx6整点报时指令怎么写
  • ¥30 远程帮我安装软件及库文件
  • ¥15 关于#自动化#的问题:如何通过电脑控制多相机同步拍照或摄影(相机或者摄影模组数量大于60),并将所有采集的照片或视频以一定编码规则存放至规定电脑文件夹内
  • ¥20 深信服vpn-2050这台设备如何配置才能成功联网?
  • ¥15 Arduino的wifi连接,如何关闭低功耗模式?
  • ¥15 Android studio 无法定位adb是什么问题?
  • ¥15 C#连接不上服务器,