百度语音技术部识别组提前批一面凉经

没开视频

1.自我介绍

2.问简历第一个实习:

讲清楚用的模型和每个模块的输入输出和维度变化?

实习项目用到的损失函数SI-SDR,公式怎么写,为什么不用MSE,和MSE有什么优劣?

模型结构中有膨胀卷积,膨胀卷积和普通卷积区别,感受野怎么变化,优势是什么,为什么用?

工作的难点在哪里?

3.问了第二个项目

对生成模型的理解,为什么用vae+diffusion的结构来做降噪?

问我DiT和Flow Matching的区别?有点疑惑,感觉不大能比,和他说两者不同,一个是模型结构,一个是训练策略,然后说了DDPM,DDIM和Flow Matching。

4.手撕

topK, 用循环直接写了,O(KN)复杂度,后来想应该用最小堆或者快排的..... 不会是这个原因挂我的吧,那你倒是让我优化下啊,感觉前面问简历答的都挺好的。

5.反问

团队方向:语音识别、语音合成和语音增强都有干,不缺人,校招是为了技术储备,目前打算做多人的长文本语音合成。

能力要求:扎实的代码能力基础外,团队非常看重解决问题的能力,尤其是将复杂问题拆解为简单可执行步骤的能力。

最近关注什么技术,在看什么论文:没回答我,把业务复述了一遍

不知道过了几天,今天看变成共享中了

#语音##百度##面经#
全部评论

相关推荐

评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务