用随机梯度下降来优化人生

要有目标。你需要有目标。短的也好,长的也好。认真定下的也好,别人那里捡的也好。就跟随机梯度下降需要有个目标函数一样。

目标要大。不管是人生目标还是目标函数,你最好不要知道最后可以走到哪里。如果你知道,那么你的目标就太简单了,可能是个凸函数。你可以在一开始的时候给自己一些小目标,例如期末考个80分,训练一个线性模型。但接下来得有更大的目标,财富自由也好,100亿参数的变形金刚也好,得足够一颗赛艇。

坚持走。不管你的目标多复杂,随机梯度下降都是最简单的。每一次你找一个大概还行的方向(梯度),然后迈一步(下降)。两个核心要素是方向和步子的长短。但最重要的是你得一直走下去,能多走几步就多走几步。

痛苦的卷。每一步里你都在试图改变你自己或者你的模型参数。改变带来痛苦。但没有改变就没有进步。你过得很痛苦不代表在朝着目标走,因为你可能走反了。但过得很舒服那一定在原地踏步。需要时刻跟自己作对。

可以躺平。你用你内心的激情来迈步子。步子太小走不动,步子太长容易过早消耗掉了激情。周期性的调大调小步长效果挺好。所以你可以时不时休息休息。

四处看看。每一步走的方向是你对世界的认识。如果你探索的世界不怎么变化,那么要么你的目标太简单,要么你困在你的舒适区了。随机梯度下降的第一个词是随机,就是你需要四处走走,看过很多地方,做些错误的决定,这样你可以在前期迈过一些不是很好的舒适区。

快也是慢。你没有必要特意去追求找到最好的方向和最合适的步子。你身边当然会有幸运之子,他们每一步都在别人前面。但经验告诉我们,随机梯度下降前期进度太快,后期可能乏力。就是说你过早的找到一个舒适区,忘了世界有多大。所以你不要急,前面徘徊一段时间不是坏事。成名无需太早。

赢在起点。起点当然重要。如果你在终点附近起步,可以少走很多路。而且终点附近的路都比较平,走着舒服。当你发现别人不如你的时候,看看自己站在哪里。可能你就是运气很好,赢在了起跑线。如果你跟别人在同一起跑线,不见得你能做更好。

很远也能到达。如果你是在随机起点,那么做好准备前面的路会非常不平坦。越远离终点,越人迹罕见。四处都是悬崖。但随机梯度下降告诉我们,不管起点在哪里,最后得到的解都差不多。当然这个前提是你得一直按照梯度的方向走下去。如果中间梯度炸掉了,那么你随机一个起点,调整步子节奏,重新来。

独一无二。也许大家有着差不多的目标,在差不多的时间毕业买房结婚生娃。但每一步里,每个人内心中看到的世界都不一样,导致走的路不一样。你如果跑多次随机梯度下降,在各个时间点的目标函数值可能都差不多,但每次的参数千差万别。不会有人关心你每次训练出来的模型里面参数具体是什么值,除了你自己。

简单最好 。当然有比随机梯度下降更复杂的算法。他们想每一步看想更远更准,想步子迈最大。但如果你的目标很复杂,简单的随机梯度下降反而效果最好。深度学习里大家都用它。关注当前,每次抬头瞄一眼世界,快速做个决定,然后迈一小步。小步快跑。只要你有目标,不要停,就能到达。

(0)

相关推荐

  • 梯度到底是个什么东西,物理意义和数学意义分别是什么?

    如果大家有过高数的学习经历,就一定对梯度有过一定的学习.接下来,人邮君带着大家简单复习一下梯度的概念和意义. 梯度(gradient) 的概念 在空间的每一个点都可以确定无限多个方向,一个多元函数在某 ...

  • 浅谈随机梯度下降&小批量梯度下降

    机器学习三要素 上次的报告中,我们介绍了一种用于求解模型参数的迭代算法--梯度下降法.首先需要明确一点,即"梯度下降算法"在一个完整的统计学习流程中,属于什么?根据<统计学习 ...

  • 精品公开课 | 随机梯度下降算法综述

    简介:梯度下降法 随机梯度下降 随机梯度下降的问题与挑战 随机梯度下降的优化算法(本文主要内容) 并行与分布式架构 随机梯度下降的其他优化方法 随机梯度下降法主要为了解决第一个问题:梯度计算 由于随机 ...

  • 梯度下降直觉 - 机器是如何学习的

    梯度下降法是一种求函数最小值的算法.在机器学习中,预测值和实际值之间的差称为误差.将所有数据点上的所有误差加在一起时称为成本. 当然,我们希望最小化代表此成本的函数 - 成本函数. 在机器学习中梯度下 ...

  • 梯度下降方法的视觉解释(动量,AdaGrad,RMSProp,Adam)

    > Animation of 5 gradient descent methods on a surface: gradient descent (cyan), momentum (magent ...

  • 理解凸性:为什么梯度下降适用于线性回归

    在机器学习中我们总会遇到线性回归问题,但是为什么我们可以用梯度下降算法来求解线性回归成本函数呢?凸性理论可以让我们更容易理解这个问题. 凸性 首先,通过凸集和凸函数定义凸度.凸集的定义如下: 在二维中 ...

  • 梯度下降(Gradient Descent)小结

    在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法.这里就对梯度下降法做一个完整的总结. 1. 梯度 在微 ...

  • 梯度下降[梯度下降]

    %% 最速下降法图示% 设置步长为0.1,f_change为改变前后的y值变化,仅设置了一个退出条件.syms x;f=x^2;step=0.1;x=2;k=0;         %设置步长,初始值, ...

  • 不能兼顾速度与精度,利物浦大学、牛津大学揭示梯度下降复杂度理论,获STOC 2021最佳论文

    机器之心报道 机器之心编辑部 梯度下降算法具有广泛的用途,但是关于它的计算复杂度的理论研究却非常少.最近,来自利物浦大学.牛津大学的研究者从数学的角度证明了梯度下降的计算复杂度,这项研究也入选 STO ...

  • 梯度下降—Python实现

    梯度下降是数据科学的基础,无论是深度学习还是机器学习.深入了解梯度下降原理一定会对你今后的工作有所帮助. 你将真正了解这些超参数的作用以及处理使用此算法可能遇到的问题. 然而,梯度下降并不局限于一种算 ...