本文是 NeurIPS 2021入选论文《用简单的梯度下降算法逃离鞍点(Escape saddle points by a simple gradient-descent based algorithm)》的解读。该工作由北京大学前沿计算研究中心李彤阳课题组完成,探讨了优化理论中的一个重要问题:如何设计简单的、单循环结构的优化算法,使其可以有理论保证地逃离非凸目标函数中的鞍点。图文 | 张辰逸、李彤阳PKU QUARK Lab论文地址:https://arxiv.org/abs/2111.14069
3 方法和技术创新本文之前,最有效的逃离鞍点的单循环算法,即扰动加速梯度下降算法(PAGD)由 Jin 等人提出。这一算法的基本思想十分简洁:在梯度较大的区域,利用 Nesterov 提出的加速梯度下降(AGD)进行迭代。若到达鞍点附近梯度很小、AGD 迭代效率很低的区域,则进行一次扰动,以期令现有迭代值离开鞍点附近。Jin 等人证明了在合理的模长设定下,各向同性的均匀扰动可以实现这一效果:只要在该扰动后再进行一定次数的 AGD 迭代,就能以一个很高的概率离开鞍点。然而,均匀扰动仍然是较为低效的,它是在无法直接读取二阶 Hessian 矩阵这一限定条件下的折中。从直觉上,沿着鞍点附近的负曲率方向的定向扰动,会远比均匀扰动高效,特别是在函数维度较高时。在本文中我们观察到,我们可以在不计算 Hessian 矩阵的情况下,找到鞍点附近的负曲率方向。具体来说,我们把视角局限在鞍点附近的一个小区域中,该区域的函数值可以被近似视为一个二次函数。在这一小区域内,我们加入一个抖动并进行一定次数的 AGD 迭代,并在每次迭代后进行归一化,从而保证 AGD 迭代始终保持在这一小区域内。我们进一步证明,这样的 AGD 迭代可以被视作 个互不干扰的一维 AGD 叠加。而且在至多 次迭代后,我们可以得到一个位移矢量,其与鞍点的负曲率方向有很大的重合。进一步地,我们可以沿着这个位移矢量的方向加入定向扰动,使函数值下降至少 ,从而更加有效地离开鞍点。在随机优化的设定下,即使只能获得随机梯度值而无法获得准确梯度值,这一方法仍有很好的效果。参考文献[1] Naman Agarwal, Zeyuan Allen-Zhu, Brian Bullins, Elad Hazan, and Tengyu Ma (2017). "Finding approximate local minima faster than gradient descent". In: 49th Annual ACM SIGACT Symposium on Theory of Computing, pp. 1195–1199.[2] Zeyuan Allen-Zhu and Yuanzhi Li (2018). "Neon2: Finding local minima via first-order oracles". In: Neural Information Processing Systems, pp. 3716–3726.[3] Yair Carmon, John C. Duchi, Oliver Hinder, and Aaron Sidford (2018). "Accelerated methods for nonconvex optimization". In: SIAM Journal on Optimization 28 (2018), no.2, 1751–1772.[4] Chi Jin, Praneeth Netrapalli, Rong Ge, Sham M Kakade, and Michael I. Jordan. (2021). "On nonconvex optimization for machine learning: Gradients, stochasticity, and saddle points". In: Journal of the ACM (JACM) 68, no.2, 1–29.[5] Chi Jin, Praneeth Netrapalli, and Michael I. Jordan. (2018). "Accelerated gradient descent escapes saddle points faster than gradient descent". In: Conference on Learning Theory, pp. 1042–1085.[6] Yurii Nesterov and Boris T. Polyak. (2006). "Cubic regularization of Newton method and its global performance". In: Mathematical Programming 108, no. 1, 177–205.[7] Yi Xu, Rong Jin, and Tianbao Yang. (2017). "Accelerated gradient methods for extracting negative curvature for non-convex optimization".关于量子算法实验室(ID:QUARK-Lab)量子算法实验室 QUARK Lab (Laboratory for Quantum Algorithms: Theory and Practice) 由李彤阳博士于2021年创立。该实验室专注于研究量子计算机上的算法,主要探讨机器学习、优化、统计学、数论、图论等方向的量子算法及其相对于经典计算的量子加速;也包括近期 NISQ (Noisy, Intermediate-Scale Quantum Computers) 量子计算机上的量子算法。