上置信区间

上置信区间(Upper Confidence Interval)是一种统计方法,用于估计一个参数的上限,给出一个范围,表示在一定的置信水平下,参数的真实值不会超过这个上限。

关键点

  1. 置信区间
      • 置信区间是一个范围,用于估计一个未知参数的可能值。
      • 置信水平(通常为95%或99%)表示我们有多大信心这个区间包含了真实参数值。
  1. 上置信区间
      • 专注于区间的上限。
      • 在多臂老虎机问题中,上置信区间帮助评估每个选项的潜在最大收益。
 
 
 
UCB1的全称是“Upper Confidence Bound 1”。这是一个用于多臂老虎机问题的策略,后来被应用到蒙特卡洛树搜索中。

记忆方法

  1. 分解记忆
      • Upper:表示“上限”,因为它计算的是一个上置信区间。
      • Confidence:表示“置信度”,与概率和不确定性有关。
      • Bound:表示“界限”,用来界定选择的范围。
      • 1:表示这是该系列中的第一个公式
Loading...
目录
文章列表
个人站点-主NLP
欧洲史
开发工具
Linux
计算机软件
DL-训练
历史-欧洲史
历史-中国史
中国史
DL-公式推导
DL-算法原理
DL-工程化
计算机硬件
可解释性
LLM-基础
传统NLP
社会运转
训练框架
Benchmark
生活记录
技术报告
强化学习