个人站点-主NLP
欧洲史
开发工具
Linux
计算机软件
DL-训练
历史-欧洲史
历史-中国史
中国史
DL-公式推导
DL-算法原理
DL-工程化
DL-数据
计算机硬件
可解释性
LLM-基础
LLM-Tokenizer
传统NLP
社会运转
训练框架
生活记录
技术报告
强化学习
梯度下降为什么要计算方向导数bb
- 为什么要用梯度下降
因为直接令
- 为什么梯度下降有效
规定梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,我们规定函数值变化最快的方向为梯度方向梯度的定义
- 梯度如何计算
- 当 时,即 和 方向相同时,函数变化率最大,且在点 处呈上升趋势;
- 当 时,即 和 方向相反时,函数变化率最大,且在点 处呈下降趋势;
函数在处,沿任意方向都有一个变化率,最大的叫梯度函数沿任意方向的变化率为为了方便计算,引入偏微分形式()(引入偏导数,组合为方向导数) 上式可以看出两个向量的内积由于,得到也就是 方向导数的值 = 梯度方向的模 单位向量的模 cosθ其中 为 和 的夹角。
当点确定后,向量 也随即确定所以求梯度方向就等于求最大方向导数的方向
总结一下
Loading...