人工智能
返回面试题主页在不考虑计算量的情况下,head 是否可以无限增多?
🔥 热度: 181
为什么 Transformer 采用多头注意力机制?
🔥 热度: 195
K 和 Q 可以使用同一个值通过对自身点乘得到吗?这样做对模型性能的影响是什么?
🔥 热度: 153
LSTM 的基本原理是什么?
🔥 热度: 124
ELMo 技术的优缺点及其一词多义的能力。
🔥 热度: 201
说说 FastText 技术,何时更适合使用?
🔥 热度: 189
介绍 GloVE 技术的训练过程、应用场景及其优缺点。
🔥 热度: 131
自注意力机制中,K 和 Q 的作用是什么?
🔥 热度: 148
Transformer 在计算 attention 时使用点乘还是加法?请说明理由。
🔥 热度: 110
Transformer 的位置编码是怎样的?
🔥 热度: 150