很奇怪, 这种完全不匹配,还能过我到二面。。。这个组做推荐业务的,也不设计大模型推荐,。。。所以感觉面试官也不知道问我啥1.自我介绍2.针对一个项目介绍3.你觉得怎么写 prompt 是比较好的 prompt?4.如果你需要生成一个广告或者摘要, 你怎么做让模型的字数尽可能少?5.为什么你们的业务要用这个基座不用那个?6.你用过那么多大模型,他们有啥区别?(就从激活函数 NORM prefixLM casualLM transformer 位置编码讲)7. 你觉得先 NORM 和后 NORM 有啥优劣?8. MHA 的计算时间复杂度是多少?和 FFN 哪个复杂度更高(感觉好像不太好直接比较啊)手撕 MHA(其实我都没写好,面前看过代码,但是接口记不住,就随便写了个样子)没写完呢就说可以了,面试官也没看然后问:大模型训练常见的 loss 有哪些,写一下公司(写了交叉熵 KL 散度 PPO DPO 的 loss)反问:你们推荐用到大模型吗?(目前还没有,业界主要还不用这个)手撕 transformer mha