字节国际广告算法二面面经
手撕1: 寻找有序数组中,target的出现次数,要求小于O(n)的时间复杂度
手撕2:查找数组第K小的元素 讨论实现思路
要求时间复杂度小于O(nlogn)
实习的LLM经历拷打
八股
如何增加模型泛化性?
归一化方式,layernorm和batchnorm的区别和计算方式,为什么要有归一化
Transformer架构中,TOKEN 间交互和TOKEN 内交互分别在那些模块中?
为什么基于attention的加权融合方式有效
反问:业务和模型使用情况,当前成熟度和存在难点,主要做搜广推,部分场景会用到大模型