字节-tac-面经-算法-大模型-搜推(持续记录)

面试问题:
- (针对简历提问)你工作里主要关注哪些指标?解释一下AUC含义、计算和作用
- 主流的开源大模型结构有哪些?
(prefix decoder,casual decoder、encoder-decoder)
- 介绍一下layernorm和batchnorm的区别?
- 在机器学习里,怎么处理长尾数据和多峰数据?
- 怎么解决模型的冷启动问题,你觉得LLM在冷启动方面能够起到什么作用?
- 介绍一下常见的优化算法(SGD ->Adagrad ->RMSProp ->Adam -> AdamW)?优缺点
- 为什么Adam不一定最优而SGD最优的?怎么理解分析?
- (针对简历提问)你工作里的对比损失是怎么构造的,有什么作用?介绍常见的对比损失的公式。
代码题:
- 数组第K大。给定整数数组 nums 和整数 k,请返回数组中第 k 个最大的元素。(力扣215原题)
- 手写对比损失的计算(结合项目),并简单说了一下原理。(大概写出来就好)
二面我这个是交叉面,提问的有部分设计大模型,也当然我简历上有大模型,所以问了一些llm+搜推的内容,但这部分交叉问题比较浅,能说个大概就很好,同时也有很多经典的机器学习面经问题。
因为项目里提到了对标学习,所以面试官在代码考核部分让我写个示例,所以写进简历的一定要准备好(包括流程步骤,代码实现大概要清楚)。
面广告算法的岗位,机器学习面经暴率很高,建议熟背,就算是看过有印象,问到的时候也会基本很稳。

#面试问题记录#
全部评论
有后续吗?佬
点赞 回复 分享
发布于 05-07 16:54 广东

相关推荐

真服了,我不信有这个题,还不会常见的业务题◆ 大模型(LLMs)基础面• 目前主流的开源模型体系有哪些?• prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是什么?• 大模型LLM的 训练目标 是什么?• 涌现能力是啥原因?• 为何现在的大模型大部分是Decoder only结构?• 简单 介绍一下 大模型【LLMs】?• 大模型【LLMs】后面跟的 175B、60B、540B等 指什么?• 大模型【LLMs】具有什么优点?• 大模型【LLMs】具有什么缺点?◆ Layer normalization 篇• Layer Norm 的计算公式写一下?• RMS Norm 的计算公式写一下?• RMS Norm 相比于 Layer Norm 有什么特点?• Deep Norm 思路?• 写一下 Deep Norm 代码实现?• Deep Norm 有什么优点?• LN 在 LLMs 中的不同位置 有什么区别么?如果有,能介绍一下区别么?• LLMs 各模型分别用了 哪种 Layer normalization?◆ LLMs 激活函数篇• 介绍一下 FFN 块 计算公式?• 介绍一下 GeLU 计算公式?• 介绍一下 Swish 计算公式?• 介绍一下 使用 GLU 线性门控单元的 FFN 块 计算公式?• 介绍一下 使用 GeLU 的 GLU 块 计算公式?• 介绍一下 使用 Swish 的 GLU 块 计算公式?◆ Attention 升级面• 传统 Attention 存在哪些问题?• Attention 优化方向• Attention 变体有哪些?• Multi-head Attention 存在什么问题?• 介绍一下 Multi-Query Attention?• 对比一下 Multi-head Attention 和 Multi-Query Attention?◆ transformers 操作篇◆ LLMs 损失函数篇◆ 相似度函数篇◆ 大模型(LLMs)进阶面◆ 大模型(LLMs)微调面◆ LLMs 训练经验帖◆ 大模型(LLMs)langchain 面◆ 多轮对话中让AI保持长期记忆的8种优化方式篇◆ 基于langchain RAG问答应用实战◆ 基于LLM+向量库的文档对话 经验面.......
大模型海文:所有面试题可以开源给大家 后台T一下
点赞 评论 收藏
分享
评论
2
12
分享

创作者周榜

更多
牛客网
牛客企业服务