面经1,2024年,腾讯40K大模型数据算法工程师

腾讯的面试一般有3-5轮:

一面,技术面

面试官:

1、自我介绍

2、讲项目

腾讯的面试官要求我讲一讲自己简历上写的项目。

3、技术问答

因为我简历上写的项目涉及了数据预处理、BERT大模型等,所以面试官追问:

数据预处理怎么做的?

BERT的两个预训练任务是什么?

BERT和GPT的对比?

等等。

最后,腾讯的面试官:

你自己简历上的东西都不熟,就不要浪费双方时间了。

你自己简历上的东西都不熟,还不如不写上去。

(后来我的老师教导我:简历就是考卷,简历上写的项目等都要非常熟悉)

补充:

别的公司如南粤家政,会更关注求职者能否给公司创造价值?

如南粤家政的面试官:家政行业大模型,如何给我们公司带来更多客户?

#AI大模型#
GPT大模型算法面试经验 文章被收录于专栏

我是计算机专业的硕士,毕业进入社会,深深的感觉到面试找工作的困难(可能是因为我毕业时,不巧碰上了2019冠状病毒全球疫情)。 我会努力将每次面试有价值的经验记录下来,既是帮助自己温故而知新,也希望能给大家面试找工作提供帮助。

全部评论

相关推荐

09-09 15:40
山东大学 Java
1、自我介绍2、请你花 5min 左右介绍一下项目一的背景和你做的工作3、你们的缓存和 DB 用的什么一致性策略?是强一致的吗?4、目前两级存储都是做的单机部署,你的这个策略能否应用到分布式的场景?如果应用到分布式场景下,需要考虑哪些问题?5、浅谈实习(6min)6、项目中用到了 ES,请你谈谈 ES 和 Lucene 的关系7、ES 是怎么实现高效检索的?8、ES 的数据查询是放在内存中还是磁盘中?9、MySQL 会存在深分页查询,ES会存在吗?10、MySQL 中我如果执行一条 select 语句,limit 100,100; 那么实际在数据库中检索了多少行数据?11、处理 MySQL 深分页查询的手段有哪些?12、你觉得现在的大型商业产品是如何去处理深分页问题的?比如 Google 或者百度,怎么处理深分页的?13、项目中用到了 AI 扩图,简单讲讲14、平时有去了解过 AI 相关的一些技术原理或者说相关知识吗?15、谈谈你如何理解大模型这三个字?16、回到大模型的使用场景,你和它聊天,它是具有上下文的记忆功能的,你觉得这个记忆的功能是大模型提供的能力吗?大模型是有状态的吗?17、大模型是如何去驱动一些任务的执行的?比如订机票,打开网页等操作,为什么大模型能够去订机票?为什么它能够打开网页?18、给你提一个需求:假如一个城市,有 100 万个菜鸟的包裹柜,一个城市一天可能会有 1 亿 哥包裹的存取。现在给你这 1 亿个包裹的存入和取出时间,用一个数组来存储。假设这些包裹都是在一天内进行存入并取出的。现在的问题是:如何找出这一天中的哪个时间段包裹没有被取出来的数目是最多的?以及它们所在的时间段是多长的时间?你的方案的时间和空间复杂度是多少?19、项目中使用了分布式锁,谈谈基于 Redis 如何实现分布式锁?20、除了 Redis 实现分布式锁以外,还有其它哪些方案?21、分布式环境下,对于 MySQL 数据库而言,可以用什么手段来保证数据的唯一性?22、数据库的唯一索引对 null 支持吗?可以支持两个 null 数据吗?它是唯一的还是不唯一的?23、反问
查看22道真题和解析
点赞 评论 收藏
分享
09-22 14:41
已编辑
门头沟学院 算法工程师
面试是24年7月的现在已经入职几个月了,补一下面经,帮有需要的同学参考。BG:本硕985 计算机论文1A1B一面:技术面自我介绍 & 简历相关。简单介绍了自己在多模态和大模型方向的研究/工作经历,包括在校期间的论文工作以及实习经历。面试官主要针对简历上的项目提了一些细节问题,比如具体模型的量级,提升了多少,和哪些方法做了比较等。因为是自己的工作,所以没有卡壳。问有没有遇到过 Python 文件之间互相 import 的问题,出现这种问题怎么办?让我简单介绍了一下 PPO 算法,以及和 TRPO 的区别是什么?接着 PPO,问了一下 ChatGPT 的 RLHF 流程,以及为什么不直接用 SFT,而是要用强化这么麻烦的方式训练模型?继续追问 RLHF、SFT、LoRA 的区别,分别适用于什么场景?反问:公司现有业务是什么,计算资源情况等。二面:主管面论文介绍。让我用通俗的语言介绍我自己发表和投稿的论文,重点是研究动机和要解决的问题。问有没有亲手训练过大模型,最多用了多少张 GPU 卡?并行训练使用的框架是什么?介绍一下 DeepSpeed,说一下这个框架在并行的不同阶段(ZeRO stage)分别做了哪些事?训练模型的时候,数据量有多少,怎么收集数据的,训练花了多少时间?遇到的最大问题是什么?问在大模型全量微调时,显存消耗分别由哪些部分占用?(参数、梯度、优化器状态、激活信息等),分别占用多少?假设模型参数量为N,请分不同情况讨论和计算一下微调所需要的显存(不同精度、batch size、seq len 等)。说一下 LoRA 公式,讲一讲其中 A 和 B 两个矩阵分别表示什么。LoRA 的优缺点是什么,什么场景下适合使用?问知道哪些大模型训练和推理框架,用过哪些?问 LLaVA 的结构是什么,和常规的纯文本大模型有什么区别?Encoder-Decoder 结构的模型转 ONNX 的一般流程,遇到不支持的算子怎么办?可能遇到的问题(动态 shape、模型中逻辑判断需要单独写、模块拆分等)。三面:HR 面主要问了为什么选择公司,对团队的看法,对岗位的认识;未来大致的规划,面试过程的体验,有没有别的公司的 offer 等。以及询问了期望薪资等。之后就是等待,最终和期望薪资基本一致。总体感受面试流程比较顺畅,问题也比较贴合岗位要求;如果和岗位匹配度高,一般流程推进速度会很快。入职以后,工作内容和面试被问的问题也差不多,基本上都是算法工程师需要做的内容,团队氛围也很不错。只是毕竟是企业,不可能光搞研究,在承接业务时还是免不了和很多人打交道和来回battle需求,这个无可避免。
查看19道真题和解析
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务