百度语音技术部识别组提前批一面凉经
没开视频
1.自我介绍
2.问简历第一个实习:
讲清楚用的模型和每个模块的输入输出和维度变化?
实习项目用到的损失函数SI-SDR,公式怎么写,为什么不用MSE,和MSE有什么优劣?
模型结构中有膨胀卷积,膨胀卷积和普通卷积区别,感受野怎么变化,优势是什么,为什么用?
工作的难点在哪里?
3.问了第二个项目
对生成模型的理解,为什么用vae+diffusion的结构来做降噪?
问我DiT和Flow Matching的区别?有点疑惑,感觉不大能比,和他说两者不同,一个是模型结构,一个是训练策略,然后说了DDPM,DDIM和Flow Matching。
4.手撕
topK, 用循环直接写了,O(KN)复杂度,后来想应该用最小堆或者快排的..... 不会是这个原因挂我的吧,那你倒是让我优化下啊,感觉前面问简历答的都挺好的。
5.反问
团队方向:语音识别、语音合成和语音增强都有干,不缺人,校招是为了技术储备,目前打算做多人的长文本语音合成。
能力要求:扎实的代码能力基础外,团队非常看重解决问题的能力,尤其是将复杂问题拆解为简单可执行步骤的能力。
最近关注什么技术,在看什么论文:没回答我,把业务复述了一遍
不知道过了几天,今天看变成共享中了
#语音##百度##面经#