多到数不清。
可梯度下降这么一路滚下来,它不是随便落,而是带着一种说不清道不明的偏好,专往那些最平、最简单的低点里去。
这种没人明写、却实实在在起着作用的偏好,就叫隐式正则化。
机器之所以没把噪声死记下来,不是因为有谁在拦着它,而是因为梯度下降这条路本身,就懒得往那些尖锐、复杂的坑里钻。
至于它为什么懒,数学上是能给出一个说法的。
当一张网络宽到极致的时候,它在训练里的一举一动,会退化成一种早就被研究透了的老东西——核方法。
整个训练过程,近似于围着出发点做一次线性展开,网络几乎不挪窝,只在原地轻轻地晃。
这套理论在圈子里有个名字,叫 NTK机制(神经正切核)。
而这种“原地不动、只轻轻晃”的状态,则被形象地称作懒惰训练。
60941343
胖胖的小橘提醒您:看完记得收藏【祭司书院】 www.jsshengmin.com,下次我更新您才方便继续阅读哦,期待精彩继续!您也可以用手机版:m.jsshengmin.com,随时随地都可以畅阅无阻...