滴滴算法岗面经

因果模型:

1. 给你两条数据,怎么评判哪条好哪条坏?

2. 后门原则是啥?

3. DragonNet 是怎么保证输出的单调性和一致性的?

4. DragonNet 的损失函数都由哪几部分组成?里面的正则化项是啥意思,有啥用?

多模态大模型:

5. Transformer 里为啥要除以根号 d?

6. Qwen2-VL 的微调,详细讲讲?

7. 多模态里,图像处理用了最大池化,那反向传播的时候要怎么处理?

8. Dropout 在训练时丢掉的那些神经元,推理的时候会用上吗?

9. CLIP 的 batch size 是多少?

10. 大模型里的 temperature 参数能控制复读、增强多样性,背后的原理是啥?

手撕题是二叉树和排序。

全部评论
是根据项目问的吗
点赞 回复 分享
发布于 09-01 16:47 陕西
提前批吗
点赞 回复 分享
发布于 08-30 09:00 浙江

相关推荐

昨天 18:14
已编辑
山西省临汾第一中学校 Java
以下成绩全部作废:反串帖 家人们谁懂啊!9本+1段实习,暑期面20多家才混上实习,秋招就攥着5个“不知道算不算好”的意向,就急着喊“结束了不面了”,这是生怕再多面一家就露怯吧? 实习50天也敢说“颠沛流离”,怕不是每天到岗打卡就坐等下班,这点经历都能拿出来卖惨,怕不是没见过真·连轴转赶项目的? 还“流程中的没面完”“不发截图怕定位”,别装了,不就是拿不出手怕被人戳穿“这就是你能拿到的最好的了”吗?真有好意向早亮出来炫耀了,哪还会藏着掖着。 更搞笑的是,还敢说“分享面试、八股、简历包装经验”,就你这bg能上岸,怕不是全靠“包装”得够唬人,真要教人怕不是误人子弟? 最后还要喊“java的hc真的很多”,合着就你看着多?怕不是只看到自己那点一亩三分地,没见着多少人拿着更硬的背景还在等消息呢,别在这误导人了!#我的秋招凡尔赛日记# # Offer没多少口气倒不小#
我的秋招日记
点赞 评论 收藏
分享
✅一面 1.首先是自我介绍和过项目,面试官还一起探讨项目用到的方法,可行性之类的2.介绍一下 CLIP3.了解 LoRA 吗, LoRA 微调的原理是什么4.了解哪些多模态大模型,简要介绍几个5.BLIP的三个损失函数分别是什么,数据是怎样清洗的6.BLIP2相对于 BLIP 有哪些改进,BLIP3又有哪些改进7.Qwen- VL 的三个训练流程分别是什么,有什么作用8.视觉编码器和 LLM 连接时,使用BLIP2中 Q - Former 那种复杂的 Adaptor 好还是 LLaVA 中简单的 MLP 好,说说各自的优缺点9.代码:实现多头自注意力一面比较常规,几乎都是八股问题,我觉得只要了解常见的多模态大模型都问题不大,主要还是要理解各个模型设计的动机是什么,这也是面试最喜欢考察的✅二面1.自我介绍和过项目,简要问了项目中使用某些方法的动机,以及是否会导致其他的问题2.了解 Transformer 吗,编码器和解码器的注意力有什么区别,在计算注意力中时除以 dk \ sqrt { d _ k }\ sqrt [ d _ k }的原因是什么3.后来有哪些比较经典的基于 Transformer 的语言模型, Qwen 相比于原始 Transformer 有哪些结构上的改动,Qwen2又有哪些改进4.了解 RLHF 吗, DPO 和 PPO 有什么区别, Loss 是什么样的,各自的优缺点是什么5.介绍一下 CLIP ,还了解什么其他的对比学习方法6.开放题:了解哪些多模态大模型,目前多模态大模型最的问题是什么7.代码:1143.最长公共子序列二面其实也偏常规,几乎也都是八股问题,但是也考察了一些对模型的理解以及知识面的广度,整体来说比一面的难度大一些✅三面:1.自我介绍,然后详细过了一下项目2.了解哪些大模型和多模态大模型,然后就聊了大模型这一路是怎么发展过来的,Transformer 、 BERT 、 GPT 、 LLaMA 、 Qwen ix ,以及当时的o1推理模型3.平常有尝试过训练过大模型吗,规模小一点的也没关系4.聊天,包括职业规划等等三面比较轻松,面试官说知识点前面两面都考察过了,三面就轻松一些,大概40来分钟吧📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
点赞 评论 收藏
分享
点赞 评论 收藏
分享
评论
点赞
6
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务