网易推荐算法面试经历一面(50分钟)- 除了Dropout和L1/L2正则化,你还知道哪些防止过拟合的技术(如早停、数据增强、批量归一化)?请分别说明其原理和适用场景。- 为什么说Dropout在推理时需要对权重进行缩放(Inverted Dropout)?它和标准的Dropout在实现上有什么区别?这样做有什么好处?- Transformer中的位置编码(Positional Encoding)有什么作用?你了解哪几种实现方式(如绝对位置编码、相对位置编码)?它们各自有什么优缺点?- Self-Attention和传统的RNN/CNN在处理序列数据时各有什么优势和劣势?在什么场景下你会优先选...