Gradient Descent
假设我们有一个函数,我们需要找到它的最小值。
其中x,y是数据集,是常量;w,b是变量,那么C函数的偏差值可以表示为:
同时C函数的 Gradient Vector 为:
如果我们可以使
那么可以实现 C 一直保持向下减小:
Back-propagation
那么,到底怎么去求式(1)和式(2)呢?这就需要依赖 Back-propagation 了。实际上,Back-propagation 就是一种快速求Gradient的方法。
我们定义一个值,称之为 error:
Back-propagation 的核心就是说,只要我们可以计算出 error 值,我们就可以通过下面的简单计算得出每一个参数的 Gradient: