个人站点-主NLP
欧洲史
开发工具
Linux
计算机软件
DL-训练
历史-欧洲史
历史-中国史
中国史
DL-公式推导
DL-算法原理
DL-工程化
计算机硬件
可解释性
LLM-基础
传统NLP
社会运转
训练框架
Benchmark
生活记录
技术报告
强化学习
🗒️基础概念再次厘清
date
icon
password
Sub-item
Blocked by
Parent item
type
status
slug
summary
tags
category
Blocking
Introduction
这篇文章用来厘清看论文时经常会混淆的基础概念
很多作者由于背景的不同,在论述公式的时候,用的符号标记不同
很多时候并不是有错误,而是理解的不同,或者习惯性用法的不同,导致看论文时稀里糊涂
记住下面几点
- 数学一直在发展,很多符号都是沿用了原始的写法,但是定义发生了变化,或者内容变了
- 同一个概念会有不同写法,很多符号不存在标准写法
- 比如导数,在牛顿、莱布尼兹之前就有人研究了,牛顿莱布尼兹又各自去做了研究,个人有个人的写法,这可不就混乱了吗
导数、微分、梯度、方向导数、偏导数、雅可比矩阵、黑森矩阵一次厘清
1. 导数
要解决的问题:
- 为什么链式法则不能看作除法
- 是一个整体还是可以拆开
古典的导数定义:
此时导数就是切线的斜率
但是,这玩意儿是有问题的
古典导数头上的乌云你去深抠里面细节,就会发现总有对不上的,就跟波粒二象性一样,哪儿哪儿都怪
所以一种解法就是把它看作一个整体
不再用公式定义导数,而是直接给他一个符号
比如,对于 函数在点的导数,有如下几种写法
- 莱布尼兹记号
- 拉格朗日记号
- 牛顿记号
- 欧拉记号
只要涉及以下要素:
- 函数:
- 自变量
- 因变量
- 某点
甚至都不需要全部都有,拉格朗日记号也没有因变量,因为他研究的场合不关注这个
现在我们可以解答这两个问题,当然不能看作除法,也不能拆开看
但是为什么有的时候看作除法也能算得通,也看到别人写呢
- 先说除法也能算得通的事,简单来说,是在一元下
- 可以拆分开也是因为,研究的场合不同,比如研究微分的时候,微分跟导数一体两面,公用一套符号很正常,但是在微分方面看得通的定义,在导数这里未必行得通,下次可以关注,拆开的情况是不是大部分还是在涉及微分的研究方面
可以参考这里
dy/dx 这是一个整体,可以确定一个极限,为什么可以将其分开(请再看一下问题补充说明)? - jack的回答 - 知乎
https://www.zhihu.com/question/432588711/answer/1629028795
最后我们做总结,未必准确,但是在一般深度学习方面,这么理解是没问题的
- 根据无穷小量这个概念,我们有了切线,导数就是切线的斜率
- 导数的符号,其中 是一个整体,这个算符表示括号里的东西“对x求导”
- 所以二阶导数应该写作,而不是,因为表示对求导两次
- 很多奇怪的写法都是因为把写成了,所以才会被看作为除法
- 把和当作独立的对象,也就是可以看作除法的唯一场合:
- 必须是因改变了而引起了变化
- 例如一元微分中完全没问题,除法是通的
- 区分,这个区分也很重要
- 表示无穷微小量,不可测
- 表示的有限量,虽然小但是有
符号 | 含义 | 特点 | 适用场景 |
自变量的有限变化量 | 有限、确定值 | 离散变化或实际计算 | |
因变量的有限变化量 | 真实变化量,由 Δx\Delta x 确定 | 离散变化或实际计算 | |
自变量的微小变化量(无穷小) | 无限趋近于零,通常作为独立变量 | 连续变化,局部变化描述 | |
因变量的微小变化量(无穷小) | 由导数和 dxdx 决定,表示线性化近似变化量 | 连续变化,局部变化描述 |
上一篇
优化算法
下一篇
DL-算法原理
Loading...