个人站点-主NLP
欧洲史
开发工具
Linux
计算机软件
DL-训练
历史-欧洲史
历史-中国史
中国史
DL-公式推导
DL-算法原理
DL-工程化
DL-数据
计算机硬件
可解释性
LLM-基础
传统NLP
社会运转
训练框架
生活记录
技术报告
强化学习
🗒️ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
date
icon
password
Sub-item
Blocked by
Parent item
type
status
slug
summary
tags
category
Blocking
2. Background and Related Work
2.1 Preliminary
定义Sentence
定义Embedding
首先self-attention 转换
通过引入了位置和,然后query和key被用来计算attention score。
现在关于位置编码的研究,基本上都是关注与上面的
2.2 Absolute position embedding
一个典型的选择就是
就是位置的向量,和维度一致,可相加
原始attention is all you need选择了正弦曲线
t为位置向量的某个维度,d=512时, t=0,1,...,255
有个点需要注意,transformer里是固定的位置编码,算出来的,但是BERT的通过训练得到的
上一篇
Constitutional AI: Harmlessness from AI Feedback
下一篇
DL-工程化
Loading...