浙大乱杀,但北京基本没有WLB的厂建议看看其他地方,杭州不好嘛
点赞 1

相关推荐

点赞 评论 收藏
分享
真服了,我不信有这个题,还不会常见的业务题◆ 大模型(LLMs)基础面• 目前主流的开源模型体系有哪些?• prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是什么?• 大模型LLM的 训练目标 是什么?• 涌现能力是啥原因?• 为何现在的大模型大部分是Decoder only结构?• 简单 介绍一下 大模型【LLMs】?• 大模型【LLMs】后面跟的 175B、60B、540B等 指什么?• 大模型【LLMs】具有什么优点?• 大模型【LLMs】具有什么缺点?◆ Layer normalization 篇• Layer Norm 的计算公式写一下?• RMS Norm 的计算公式写一下?• RMS Norm 相比于 Layer Norm 有什么特点?• Deep Norm 思路?• 写一下 Deep Norm 代码实现?• Deep Norm 有什么优点?• LN 在 LLMs 中的不同位置 有什么区别么?如果有,能介绍一下区别么?• LLMs 各模型分别用了 哪种 Layer normalization?◆ LLMs 激活函数篇• 介绍一下 FFN 块 计算公式?• 介绍一下 GeLU 计算公式?• 介绍一下 Swish 计算公式?• 介绍一下 使用 GLU 线性门控单元的 FFN 块 计算公式?• 介绍一下 使用 GeLU 的 GLU 块 计算公式?• 介绍一下 使用 Swish 的 GLU 块 计算公式?◆ Attention 升级面• 传统 Attention 存在哪些问题?• Attention 优化方向• Attention 变体有哪些?• Multi-head Attention 存在什么问题?• 介绍一下 Multi-Query Attention?• 对比一下 Multi-head Attention 和 Multi-Query Attention?◆ transformers 操作篇◆ LLMs 损失函数篇◆ 相似度函数篇◆ 大模型(LLMs)进阶面◆ 大模型(LLMs)微调面◆ LLMs 训练经验帖◆ 大模型(LLMs)langchain 面◆ 多轮对话中让AI保持长期记忆的8种优化方式篇◆ 基于langchain RAG问答应用实战◆ 基于LLM+向量库的文档对话 经验面.......
大模型海文:所有面试题可以开源给大家 后台T一下
点赞 评论 收藏
分享
牛客网
牛客企业服务