个人站点-主NLP
欧洲史
开发工具
Linux
计算机软件
DL-训练
历史-欧洲史
历史-中国史
中国史
DL-公式推导
DL-算法原理
DL-工程化
计算机硬件
可解释性
LLM-基础
传统NLP
社会运转
训练框架
Benchmark
生活记录
技术报告
强化学习
上置信区间
上置信区间(Upper Confidence Interval)是一种统计方法,用于估计一个参数的上限,给出一个范围,表示在一定的置信水平下,参数的真实值不会超过这个上限。
关键点
- 置信区间:
- 置信区间是一个范围,用于估计一个未知参数的可能值。
- 置信水平(通常为95%或99%)表示我们有多大信心这个区间包含了真实参数值。
- 上置信区间:
- 专注于区间的上限。
- 在多臂老虎机问题中,上置信区间帮助评估每个选项的潜在最大收益。
UCB1的全称是“Upper Confidence Bound 1”。这是一个用于多臂老虎机问题的策略,后来被应用到蒙特卡洛树搜索中。
记忆方法
- 分解记忆:
- Upper:表示“上限”,因为它计算的是一个上置信区间。
- Confidence:表示“置信度”,与概率和不确定性有关。
- Bound:表示“界限”,用来界定选择的范围。
- 1:表示这是该系列中的第一个公式
Loading...