从分布p(z)采样很容易, 因为积分的 Monte Carlo evaluation 所需要的。 其他很多领域的研究已经研究过log-derivative trick, 并给出了和他们的问题表述相关的名字, 包括: Score function estimators:我们的微分允许我们将期望的梯度转换为 score function\nabla_\theta \log p(z ; \theta)的期望, 使得很自然地得...
通过结合 Log Derivative Trick 和概率等价法则,我们可以构建梯度的分数函数估计器。这个估计器利用了蒙特卡罗采样方法,通过计算加权梯度来实现。这四行描述了一个复杂但直接的过程,包括交换导数和积分的顺序、应用概率等价法则、替换对数概率的梯度和最终得到蒙特卡罗估计。在实现过程中,我们假设某些基本条件得...
Theexpected value of the score is zero. Our first use of the log-derivative trick will be to show this. In the first line we applied the log derivative trick and in the second line we exchanged the order of differentiation and integration. This identity is the type of probabilistic flexibil...