人工智能
返回面试题主页LSTM 和 GRU 在处理序列数据中的应用
🔥 热度: 57
Transformer 为什么采用 Layer Normalization 而不是 Batch Normalization?
🔥 热度: 95
了解 Transformer 模型训练中的梯度裁剪(Gradient Clipping)吗?
🔥 热度: 56
Transformer 中,Decoder 阶段的多头自注意力与 Encoder 阶段的多头自注意力相同吗?
🔥 热度: 50
讲一下你对 Transformer 的 Encoder 模块的理解。
🔥 热度: 53
LSTM 和 GRU 的区别?
🔥 热度: 61
隐藏状态与单元状态的区别?
🔥 热度: 59
LSTM 单元的基本组成及其各自作用?
🔥 热度: 85
LSTM 如何解决梯度消失问题?
🔥 热度: 54
多头注意力时,是否需要对每个 head 进行降维?
🔥 热度: 68