梯度下降为什么要计算方向导数bb

😀
  • 为什么要用梯度下降
    • 因为直接令
  • 为什么梯度下降有效
    • 规定
      梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,我们规定函数值变化最快的方向为梯度方向
      梯度的定义
  • 梯度如何计算
    • 函数在处,沿任意方向都有一个变化率,最大的叫梯度
      函数沿任意方向的变化率为
      为了方便计算,引入偏微分形式()
      (引入偏导数,组合为方向导数)
      notion image
      上式可以看出两个向量的内积
      由于,得到
      也就是 方向导数的值 = 梯度方向的模 单位向量的模 cosθ
      其中 为 和 的夹角。
      • 当 时,即 和 方向相同时,函数变化率最大,且在点 处呈上升趋势;
      • 当 时,即 和 方向相反时,函数变化率最大,且在点 处呈下降趋势;
      当点确定后,向量 也随即确定
      所以求梯度方向就等于求最大方向导数的方向

总结一下

Loading...
目录
文章列表
个人站点-主NLP
欧洲史
开发工具
Linux
计算机软件
DL-训练
历史-欧洲史
历史-中国史
中国史
DL-公式推导
DL-算法原理
DL-工程化
DL-数据
计算机硬件
可解释性
LLM-基础
LLM-Tokenizer
传统NLP
社会运转
训练框架
生活记录
技术报告
强化学习