FTRL本质上是一种优化方法,最早由google提出并用于CTR预估。常被用于逻辑回归的优化,因此先简单介绍一下逻辑回归的内容。 1.1 sigmoid函数 由于二分类结果是1或者0,这与数学的阶跃函数很类似,但是阶跃函数在x=0的位置会发生突变,这个突变在数学上很难处理。所以一般使用sigmoid函数来拟合: 具体应用到逻辑回归算法中: ...
FTRL 的算法流程中每一轮更新都要计算损失函数对每个特征分量的偏导数, 论文 中写的是使用梯度,但实际上是梯度的一个分量,即偏导数,这里就不作区分了。Log LossLog Loss 即Logistic LossLogistic Loss ,其具体由来可参阅前文 《常见回归和分类损失函数比较》。仅考虑一个特征的参数 wiwi,y∈{−1,+1}y∈{...
FTRL与RDA、FOBOS对比 算法原理 参数权重更新 FTRL算法权重更新公式为:\begin{align*} W^{t+1} &= \operatorname*{argmin}_{W}\{G^{(1:t)}W + \lambda_{1}||W||_{1} + \frac{1}{2}\lambda_{2}||W||_{2}^2 + \frac{1}{2}\sum_{s=1}^{t}\sigma^{(s)}||W-W^{(s)}||...
上一篇文章讲了LR+FTRL算法原理以及工程化实现。在实际的项目开发中,常常使用的是LR+组合特征+FTRL的方式进行建模。这种方式需要人工组合特征,非常考验经验,而且存在线下组合的有效特征线上不一定有效、当前有效的特征未来也不一定有效,所以逐渐被其它的可以自动组合特征的模型取代。业界常用的两种组合特征的方式是:FM系列...
FTRL 原理 ⽹上很多资料都是从 FTRL 的⼏个前辈,FOBOS、RDA 等⼀步步讲起,本篇就不绕那么⼤的圈⼦了,直接从最基本的 OGD 开路到 FTRL 。OGD ( online gradient descent ) 是传统梯度下降的 online 版本,参数更新公式为:w t+1=w t−ηt g t t表⽰第t轮迭代,注意上式中的学习率ηt...
FTRL 的算法流程中每一轮更新都要计算损失函数对每个特征分量的偏导数, 论文 中写的是使用梯度,但实际上是梯度的一个分量,即偏导数,这里就不作区分了。Log LossLog Loss 即Logistic LossLogistic Loss ,其具体由来可参阅前文 《常见回归和分类损失函数比较》。仅考虑一个特征的参数 wiwi,y∈{−1,+1}y∈{...
在理论上可以证明,如果一个在线学习算法可以保证其 regret 是tt的次线性函数,则: limt→∞Regret(t)t=0limt→∞Regret(t)t=0 那么随着训练样本的增多,在线学习出来的模型无限接近于最优模型。而毫不意外的,FTRL 正是满足这一特性。 另一方面,现实中对于 sparsity,也就是模型的稀疏性也很看中。上亿的特征并...