微软提出了OWL-QN(Orthant-Wise Limited-Memory Quasi-Newton)算法,该算法是基于L-BFGS算法的可用于求解L1正则的算法。 简单来讲,OWL-QN算法是指假定变量的象限确定的条件下使用L-BFGS算法来更新,同时,使得更新前后变量在同一个象限中(使用映射来满足条件)。 2.6.2 OWL-QN算法的具体过程 1 次微分 设$f...
据说百度首创了Shooting算法,收敛速度比L-BFGS快得多,目前还不知道怎么做的。 此外,Chih-Jen Lin(LIBSVM作者)提出的信赖域牛顿方法(Trust Region Newton Method),其收敛速度也比L-BGFS快,他开发的另一个针对大规模线性分类的软件LIBLINEAR用的就是这种优化方法。 此外,Chih-Jen Lin(LIBSVM作者)提出的信赖域牛顿...
这里有一个问题是,L1正则化项不可微,所以无法像求L-BFGS那样去求。微软提出了OWL-QN(Orthant-Wise Limited-Memory Quasi-Newton)算法,该算法是基于L-BFGS算法的可用于求解L1正则的算法。 简单来讲,OWL-QN算法是指假定变量的象限确定的条件下使用L-BFGS算法来更新,同时,使得更新前后变量在同一个象限中(使用映射来...
从牛顿法,拟牛顿法,到L-BFGS,体现了不同时代优化算法的进步,每一代优化算法都曾在各自时代独领风骚,“第三代牛顿法”L-BFGS就是大数据时代的新的传奇。 参考文献 [1] Liu, Dong C., and Jorge Nocedal. "On the limited memory BFGS method for large scale optimization."Mathematical programming 45, no....
2.2 牛顿法(Newton method) 由于f的极值点就是满足f的导数为0,根据公式2,得到 假设Hesse矩阵 可逆,由上式可得牛顿法迭代公式 牛顿法具有二次终止性的特点,即经过有限次迭代必达到极小点。例如,对于二次凸函数 A是对称正定矩阵,取任意初始点 ,根据公式3有 ...
限制空间的BFGS方法 限制空间的SR1方法 Source R. H. Byrd, H. F. Khalfan, and R. B. Schnabel. Analysis of a symmetric rank-one trust region method. J. E. Dennis and R. B. Schnabel. Numerical methods for unconstrained optimization and nonlinear equations J. Nocedal and S. J. Wright. Nu...
LBFGS Method 上一节所介绍的BFGS Method比较适合解决中小规模无约束最优化问题,但是BFGS算法产生的Hessian近似矩阵H_k为n * n的,同时该矩阵非稀疏,因此当n的规模较大时将面临两个问题: 1) 存储问题:n规模较大时,n*n矩阵对内存的消耗将较大; 2) 计算问题:n规模较大,同时n*n矩阵非稀疏时,计算复杂度将较...
2.3 拟牛顿法(Quasi-Newton Method) 牛顿法每次迭代都需要计算 处的Hesse矩阵的逆,同时Hesse矩阵也不一定是正定的。人们又提出了拟牛顿法,其基本思想是用不包含二阶导数的矩阵来近似Hesse矩阵的逆。将f在 处展开成2阶泰勒级数并取近似,即 设Hesse矩阵可逆,可得 ...
3. 牛顿法(Newton method) 最速下降法采用的泰勒的一阶展开,而牛顿法采用的是泰勒二阶展开。 其中s = x-x_k,将右边的式子最小化,就可以得到牛顿法的迭代公式 对于正定的二次函数,牛顿法一步就可以达到最优解,也就是不用迭代,就是解析解。而对于非二次函数,牛顿法并不能保证经过有限次迭代就可以求得最...
LBFGS Method 上一节所介绍的BFGS Method比较适合解决中小规模无约束最优化问题,但是BFGS算法产生的Hessian近似矩阵H_k为n * n的,同时该矩阵非稀疏,因此当n的规模较大时将面临两个问题: 1) 存储问题:n规模较大时,n*n矩阵对内存的消耗将较大; 2) 计算问题:n规模较大,同时n*n矩阵非稀疏时,计算复杂度将较...