首页 / 大模型面经
#

大模型面经

#
9703次浏览 107人互动
此刻你想和大家分享什么
热门 最新
推荐算法3轮面经
今天老师给大家分享推荐算法3轮面经,供各位同学参考。1️⃣第一轮1、先自我介绍,我的习惯是经历简单介绍一下,然后自然转向准备最充分的一个项目开始详细讲,面试官感兴趣的话最好,不感兴趣的话会直接打断的。主要介绍了项目的背景,难点和解决方案,面试官关心的点主要集中在问题抽象和损失函数,讲清楚为什么这么做,项目大概聊了半小时左右2、机器学习基础:推导 lr,写出loss和梯度(比起推导svm来说简直就是送分题,要是写不出来的话估计会直接挂,基础还是要好好准备)3、算法 链表对折 1 2 3 4 5 变成 1 5 2 4 3拆解一下题目,(灵活)找到链表的中点 牛客题霸: 链表中倒数第k个节点 是找中点的复杂版,都是双指针解法翻转后半段链表 牛客题霸: 翻转链表合并两个链表 牛客题霸: 合并两个有序链表 是复杂版2️⃣第二轮1、先介绍项目,主要聊了项目背景和收益,收益具体怎么衡量,项目如何上线生效2、算法题 m*n的二维数组,只能往右或者往下,找最短路径,n空间 牛客题霸: 矩阵的最小路径和3、有了解过设计模式吗?(答了常见的工厂模式和单例模式,对应的应用场景,简单扯了一下装饰器模式,也是看xgb源码看到的,其实不会用)4、系统设计需要注意什么,如何设计一个系统,系统性能如何评估,需要考虑哪些指标(考察点应该是线上的系统了,指标比如内存使用率,qps,99 39 49时间之类的)5、之前帮阿里云录制过一些深度学习的入门课程,简单聊了一下相关的内容3️⃣第三轮1、先介绍项目,主要聊了项目背景和收益,收益具体怎么衡量,项目如何上线生效2、介绍xgbgbdt和xgb的区别(居然没有问lgb)怎么选最优分裂节点,怎么加速,预排序有什么作用,怎么分箱,等宽还是等深怎么处理缺失值的,预测时候缺失值怎么办3、为什么离职,希望一份什么样的工作4、有没有什么问题想要了解的(问了业务场景 工作内容)📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。    
查看10道真题和解析
点赞 评论 收藏
分享
04-15 16:39
已编辑
门头沟学院 算法工程师
央企研究院人工智能实习生招聘
一、工作内容(可到岗学习,不要求有大模型推理优化相关经验)聚焦大模型推理性能优化,包括但不限于:1.​推理框架应用与优化:基于TensorRT-LLM、vLLM等框架实现高性能模型部署,探索其在多场景下的性能极限;2.​模型压缩与加速技术:研究大模型量化(INT8/FP8等)、模型剪枝等轻量化方法;3.​GPU计算优化:通过算子融合、显存管理、并行策略(数据/模型/流水线并行)提升端到端推理效率;4.​注意力机制优化:基于FlashAttention等算法优化Transformer结构的长序列处理能力;5.​端到端推理流水线设计:结合业务需求设计低延迟、高吞吐的推理服务方案。二、招聘要求1.在校研究生或特别优秀的大四学生。2.掌握 Python、PyTorch,能够熟练运用其进行代码编写与测试。3.熟悉 Ubuntu 系统的基本操作,可独立完成训练环境部署。4.具备机器学习的基本知识,拥有一定的代码开发和调试经验。5.具备自驱力,工作态度积极主动,拥有良好的沟通能力,并有使用先进 AI 工具辅助工作的意识。三、时间要求每周(工作日)最少实习4天,连续实习3个月以上。工作时间:早 9 点至下午 5 点。到岗时间:尽快。四、实习待遇实习薪资 280 元 / 天。五、工作地点工作地点:北京市海淀区东升科技园(不提供住宿)。如果你认为自己符合以上条件,且渴望在央企研究院开启一段充实且有意义的实习经历,请将你的简历私聊给我,邮件主题请注明 “实习生应聘 - 姓名 - 学校 - 专业- 年级 - 实习x个月”。期待你的加入,一起在技术研究的道路上发光发热!   
点赞 评论 收藏
分享
推荐算法3轮面经
今天老师给大家分享推荐算法3轮面经,供各位同学参考。1️⃣第一轮1、先自我介绍,我的习惯是经历简单介绍一下,然后自然转向准备最充分的一个项目开始详细讲,面试官感兴趣的话最好,不感兴趣的话会直接打断的。主要介绍了项目的背景,难点和解决方案,面试官关心的点主要集中在问题抽象和损失函数,讲清楚为什么这么做,项目大概聊了半小时左右2、机器学习基础:推导 lr,写出loss和梯度(比起推导svm来说简直就是送分题,要是写不出来的话估计会直接挂,基础还是要好好准备)3、算法 链表对折 1 2 3 4 5 变成 1 5 2 4 3拆解一下题目,(灵活)找到链表的中点 牛客题霸: 链表中倒数第k个节点 是找中点的复杂版,都是双指针解法翻转后半段链表 牛客题霸: 翻转链表合并两个链表 牛客题霸: 合并两个有序链表 是复杂版2️⃣第二轮1、先介绍项目,主要聊了项目背景和收益,收益具体怎么衡量,项目如何上线生效2、算法题 m*n的二维数组,只能往右或者往下,找最短路径,n空间 牛客题霸: 矩阵的最小路径和3、有了解过设计模式吗?(答了常见的工厂模式和单例模式,对应的应用场景,简单扯了一下装饰器模式,也是看xgb源码看到的,其实不会用)4、系统设计需要注意什么,如何设计一个系统,系统性能如何评估,需要考虑哪些指标(考察点应该是线上的系统了,指标比如内存使用率,qps,99 39 49时间之类的)5、之前帮阿里云录制过一些深度学习的入门课程,简单聊了一下相关的内容3️⃣第三轮1、先介绍项目,主要聊了项目背景和收益,收益具体怎么衡量,项目如何上线生效2、介绍xgbgbdt和xgb的区别(居然没有问lgb)怎么选最优分裂节点,怎么加速,预排序有什么作用,怎么分箱,等宽还是等深怎么处理缺失值的,预测时候缺失值怎么办3、为什么离职,希望一份什么样的工作4、有没有什么问题想要了解的(问了业务场景 工作内容)📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。    
查看9道真题和解析
点赞 评论 收藏
分享
字节大模型Rag算法面试题汇总
查看9道真题和解析
点赞 评论 收藏
分享
面试官:产品如何进行大模型选型?
作为AI产品经理,大模型选型需要从业务目标、技术特性和资源投入三个维度进行系统性评估。分步骤的选型:1. 场景需求拆解- 任务类型:区分生成式(GPT)、理解式(BERT)、多模态(CLIP)等任务需求- 性能指标:明确时延要求(如对话场景<2s)、准确率阈值、内容安全等级- 输入输出:处理文本长度(如法律文本需支持10k tokens)、多语言支持需求2. 技术参数评估- 模型架构对比:Transformer层数(如LLaMA 7B vs 13B)、注意力机制差异- 性能基准测试:在HuggingFace OpenLLM Leaderboard等榜单比对MMLU/HELM得分- 领域适配性:检查是否经过垂直领域微调(如Med-PaLM 2医疗专用模型)3. 成本效益分析- 推理成本计算:API调用成本(如GPT-4 $0.03/1k tokens)vs 自建GPU集群成本- 算力需求评估:模型参数量与GPU显存关系(7B模型需至少16G显存)- 长尾运维成本:监控维护、版本迭代、安全补丁更新等隐性成本4. 工程化适配度- 部署方案验证:测试ONNX转换效果、量化后精度损失(INT8量化典型损失2-5%)- 扩展能力测试:分布式推理效率、最大并发请求承载量- 工具链完整性:配套的Prompt工程工具、评估体系、持续训练Pipeline5. 风险合规审查- 数据隐私合规:评估模型训练数据来源合法性(如排除版权争议数据)- 输出可控性:测试有害内容生成概率及防护机制有效性- 许可证审查:确认商用限制(如LLaMA商用需单独授权)6. 迭代路线规划- 短期方案:采用API快速验证(如Azure OpenAI)+ RAG增强时效性- 中期过渡:微调行业小模型(LoRA适配器方案)- 长期演进:构建混合模型架构(大模型+规则引擎+传统ML)                
点赞 评论 收藏
分享
面试官:如何构建大模型产品数据飞轮?
一、明确数据飞轮的核心要素1. 数据供给闭环:用户使用产品→生成行为数据→优化模型→提升用户体验→吸引更多用户。2. 关键指标对齐:需定义数据质量(多样性、代表性)、模型效果(准确率、响应速度)、业务指标(用户留存、付费率)的关联性。二、构建数据飞轮的4个阶段阶段1:冷启动设计- 策略:- 使用开源数据+合成数据+少量人工标注,快速搭建最小可用模型(MVP)。- 产品化设计:在用户界面嵌入反馈入口(如“点赞/踩”、错误报告),主动引导用户标注低置信度结果。- 案例参考:ChatGPT初期基于人类反馈强化学习(RLHF),通过用户对回答的排序选择优化模型。阶段2:数据采集与治理- 数据来源:- 显式反馈:用户评分、标注错误、偏好选择。- 隐式反馈:停留时长、点击热图、会话中断率。- 治理关键:- 去噪与标注:自动化清洗(如去重、过滤恶意数据)+ 众包/专家复核关键样本。- 数据分布监控:避免长尾问题,通过主动学习(Active Learning)补充稀缺场景数据。阶段3:模型迭代与效果验证- 快速迭代机制:- 建立自动化训练管道(如Airflow调度),支持小步快跑式微调(如每周更新)。- A/B测试:新旧模型分桶对比,验证指标提升是否显著(如任务完成率提升5%)。- 成本控制:- 动态采样策略:仅对高价值数据(如用户高频提问领域)全量训练,其余部分采样。阶段4:闭环反馈强化- 用户感知优化:- 实时展示模型进步(如“根据您的反馈,该功能准确率提升20%”),增强用户参与感。- 设计激励体系(如积分、特权)鼓励用户反馈。- 长期价值挖掘:- 分析数据飞轮带来的边际成本下降(如单位训练数据带来的收益递增)。            
点赞 评论 收藏
分享
为什么现在 LLM 很少使用 Dropout了?
翻遍各种大模型的实现,虽然结构上可能保留了 dropout 的实现,但是采样概率都设置为 0 了。唯一一个比较新的,还用 Dropout 的模型是 Meta 训练的 Galactica 模型。那为什么现在不用了呢?核心还是要弄清楚 Dropout 的使用场景。Dropout 之前在深度学习当中是一个特别好用的方法,可以防止过拟合,提高泛化。所以说,当模型较大,数据较少的时候,使用 Dropout 是比较合适的。现在大模型处在什么状态呢?✅预训练在预训练阶段,目前可能还是处于欠拟合的状态。之所以说可能,是基于目前公开的一些论文的出的结论。但是现在闭源的公司在采用大量数据合成的情况下,已经训练足够充分或者接近充分也说不定。以 llama 一系列论文为例,训练 llama 1 的时候,龙猫 Scaling law 里面提到 GPT3 是一个训练很不充分的模型。然后给出的数据配比的建议是,10B 的模型要采用 200B 的 token 来训练。但是 llama 1 采用了 7B 的模型,训练量 1T 的 token 发现性能依然有提升。而且预训练所有的语料一般只过一个 epoch,某些特定的领域可能过 2个 epoch,可以认为样本的重复率很低。所以,在数据足够多,多样性足够而且没有太多重复的情况下,大模型在预训练阶段仍然没有过拟合的风险。也就完全不需要采用 dropout。✅Dropout 就完全不需要了么?如果上面的条件不能满足,Dropout 还是有用武之地的。比如前面提到的 Galactica 模型。这个模型和其他大模型不太一样的地方是训练了 4.25 个 epoch,因为他们认为高质量的数据更重要一些,但是又没有那么多,所以就 repeat 数据了。在论文《To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis》 中,详细列举了数据 Repeat 对训练 LLM 的影响,并且证明了 Dropout 可以缓解数据重复带来的性能损失。在文章《Can LLMs learn from a single example?》中,也提到了在 SFT 的时候,少量的重复数据就会降低模型的性能。这也符合常理,SFT 的数据分布和预训练的通常是不太一样的,重复的数据会让模型拟合新的分布,从而忘掉旧的分布。文中同样也提到 Dropout 可以缓解数据重复带来的影响。所以 Dropout 在数据量较少,多样性不高,需要 repeat 的场景下,依然是一个减少过拟合的很方便的手段。比如现在已经有一些在 LoRA 微调的时候采用 Dropout 的研究了。      
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客企业服务