1.rnn真的就梯度消失了吗? 2.lstm到底解决了什么?解决了梯度消失? 3.LSTM三种门以及sigmoid函数对每个门的作用 4.Self-attention的Query,Key,Value分别是什么 5.Slef-attention的乘法计算和加法计算有什么区别?什么时候乘比较好,什么时候加?为什么要除以一个根号? 6.LSTM中各模块分别使用什么激活函数,可以使用别的激活函数码? 7.多头注意力机制的原理是什么? 8.Transformer用的是哪种attention机制? 9.画一下Transformer结构图 10.word2vector 如何...