人工智能
返回面试题主页在不考虑计算量的情况下,head 是否可以无限增多?
🔥 热度: 65
为什么 Transformer 采用多头注意力机制?
🔥 热度: 58
K 和 Q 可以使用同一个值通过对自身点乘得到吗?这样做对模型性能的影响是什么?
🔥 热度: 60
LSTM 的基本原理是什么?
🔥 热度: 64
ELMo 技术的优缺点及其一词多义的能力。
🔥 热度: 51
说说 FastText 技术,何时更适合使用?
🔥 热度: 64
介绍 GloVE 技术的训练过程、应用场景及其优缺点。
🔥 热度: 54
自注意力机制中,K 和 Q 的作用是什么?
🔥 热度: 60
Transformer 在计算 attention 时使用点乘还是加法?请说明理由。
🔥 热度: 43
Transformer 的位置编码是怎样的?
🔥 热度: 59