人工智能-知理编程：全面的技术学习平台

LSTM 和 GRU 在处理序列数据中的应用

🔥 热度: 140

Transformer 为什么采用 Layer Normalization 而不是 Batch Normalization？

🔥 热度: 216

了解 Transformer 模型训练中的梯度裁剪（Gradient Clipping）吗？

🔥 热度: 118

Transformer 中，Decoder 阶段的多头自注意力与 Encoder 阶段的多头自注意力相同吗？

🔥 热度: 183

讲一下你对 Transformer 的 Encoder 模块的理解。

🔥 热度: 206

LSTM 和 GRU 的区别？

🔥 热度: 178

隐藏状态与单元状态的区别？

🔥 热度: 205

LSTM 单元的基本组成及其各自作用？

🔥 热度: 227

LSTM 如何解决梯度消失问题？

🔥 热度: 224

多头注意力时，是否需要对每个 head 进行降维？

🔥 热度: 241

«
1
2
…
4
5
6 (current)
7
…
19
20
»