自我介绍问学校、为什么考研?以后的职业发展?神经网络初始参数能不能全设成0,为什么?只有一层的神经网络也不能吗?写一下0、1分类问题的损失函数为什么不能用MSE?手推MSE梯度计算回传了解transformer吗?介绍一下Encoder与decoder的中Attention区别?Attention如何计算?为什么除以根号下Dk?mask attention是如何实现的?为什么要用位置编码?为什么要用sin_cos?介绍一下你做的最好的项目?项目的背景,动机? 你觉得哪里能进行优化?时间效率上?整体效果上?code:best_k,时间复杂度要求O(n), 空间复杂度能做到O(1)吗?