后端转型大模型心路历程-个人真实经验分享
01|我的背景
- 先自我介绍一下,我是一名 985 本科毕业的 Java 后端开发程序员,在某大厂核心部门做传统服务端开发已有两年多时间,日常维护的系统是分布式、微服务架构那一套,日常工作也是常规业务迭代或者偶尔的模块重构改造,一年前基本没有真正落地过大模型相关项目。
- 但是从去年年中开始,由于大模型的爆火,公司对大模型应用越来越重视,甚至将ai coding工具使用以及大模型落地应用直接和年度绩效绑定,所以部门内不少同事都开始了大模型落地应用的探索,包括我也是。其实我不是一个特别卷的人,但是在这种氛围下,我能预感到这一定是个很有发展前景的方向,所以也加入了这波浪潮,开始从0到1学习大模型应用相关技术。
- 说实话刚开始我也没有信心,因为之前从来没有接触过大模型,虽然本科是人工智能专业,但是在校期间大模型还没有火起来,而且无论是在大学期间还是在工作期间都是培养的后端技术栈能力,顶多是了解ai的一些发展历史和一些常用技术简单的原理,只能说是入门水平。
- 但是以我对ai发展的了解,今年确实是大模型爆发式发展的元年(ai发展史有个三起两落,今年则是距离我们最近也是最具颠覆意义的一次崛起)。我觉得实在不能放弃这个机会,于是也就硬着头皮去学习,争取转型了。
02 | 技术预研
- 想要转型到某个岗位,首先要了解这个岗位需要什么技能,然后对比自己拥有什么技能,进而分析自己还欠缺什么技能,然后去按部就班地学习就可以。
- 于是我翻遍了Boss直聘的大模型工程岗的jd,发现大模型后端的岗位需求其实并不像想象那么高不可攀,它依旧基于服务端工程能力,逐步拆解后我发现它主要是多了以下几个关键能力: ① RAG (向量数据库、索引、向量压缩、文本切割算法、检索算法)② Agent(单Agent原理、function call、multi Agent协作机制、MCP、A2A)③ LangChain / LlamaIndex等框架(Java选手也可以考虑Spring AI,不过我当时开始学的时候java还没有出类似的架,LangChain也没有出java版,于是学的是Python的LangChain,现在依然推荐LangChain)④ Prompt 工程(CoT思维链、few-shot或者zero-shot)⑤ 微调相关能力(SFT、LoRA、RLHF等,这个少部分岗位会要求,而且从我后期面试来看,这个确实不是必需的,但是掌握真的很加分,建议了解技术原理和选型思路,可以不用动手实践,如果想冲不区分算法 or 工程的AI Lab类的创新研发岗一定要深入学习这个)⑥ 推理优化相关能力(vLLM、TGI,可选,了解加分,非必需,除非确定要做推理优化相关岗位,如终端智能体,不然可以不学习)
- 小结:最重要并且最常考察的技术内容的还是前四个,掌握前四个中基础原理的70%~80%,就可以开始投递简历了,不用太过于完美主义,等所有内容都完全掌握了再开始投递,而是应该在练中学,在学中练。
03 | 学习计划
- 借助上步,我分析出了自己欠缺哪些技能,并且制定了具体的学习计划。首先我确定了自己要学哪些内容,顺序是什么,要学到什么程度,以及时间如何安排。
- 我首先快速过了大模型领域中经典的几篇论文,如《Attention Is All You Need》,先了解整个大模型领域中最基础的概念,确保对整个上下游体系有充分而清醒的认识,这里大家如果不想读原版论文,可以在知乎搜索相关的论文解读,确保自己有个大致的概念(另外,面试中也会偶尔考察相关概念,比如TransfFomer架构是什么、token是什么、词表是什么等不涉及算法的基本工程概念,我最近四十多场面试中大约有五场考察到了)。
- 然后,我在网上搜集了相关的学习资源,这方面的资源比较多,不过比较零散,有CSDN或者知乎的文章、极客时间的课程、网上流传的一些面经、还有内网的一些学习资料,我一边搜寻,一边理解,并把他们分类并打包成自己的学习笔记,供自己复习使用。这其中包括很多具体细分的技术内容,如Embedding、Bm25、faiss/milvus、GraphRAG、MCP、SSE、few-shot、SFT微调等等,每一类我都会记录成一篇完整的笔记。
- 在面试之前,我已经整理出一个大模型知识大纲并准备了大部分内容,在面试过程中,我还会记录自己的面经。每次面试之后都会根据面试提问内容和反馈分析对方想考察什么知识点以及考察深度如何,如果对方一直追问但是我没有提前准备的,就说明我的深度还不够,那我就会进一步补充这方面的知识点和题库。如果面了很久没有面试官提问某个模块的知识,说明我之前的学习计划有问题,准备的知识用不到,就不再把重心放在这部分了,转而学习其他内容。
- 通过这个方法,我不断迭代和完善自己的知识笔记,到后期,面试官的提问几乎都是我的知识笔记和题库里的内容,后期大厂技术面试几乎没有不通过的,只有少部分挂在了技术终面(字节)和hr面(阿里)。
04 | 简历准备
- 这一步极为关键,简历是个人职业能力的浓缩摘要,其好坏直接决定能否有面试机会,所以一定要修改成标准的大模型岗位求职简历。我的简历是直接用我之前的普通后端简历改写的,但是在技术能力这方面多加了一行,填写了大模型相关的技术栈。
- 另外,一定还要有一个大模型相关的项目。这个项目最好是自己主导或者参与的公司实际的生产项目,其次是自己维护的个人项目,前者的含金量和说服力更高,但是比较可遇而不可求。
- 我个人是前者,因为我在去年想办法争取到了主导我们组内大模型应用探索并落地的机会,并且确实做出来了一个实现了为赋能业务,提升部门人效的项目,反馈还挺好的,ld在x3部门的周会上还向大领导汇报了一波。
- 如果实在没有办法争取,可以自己做一个项目,我后续看情况,会新写几篇帖子,推荐给大家几个实用并且有说服力的项目。
写在最后:
- 看到这里的朋友们可能和我的背景不太一样,但是其中蕴含的经验,无论是对和我一样工作数年的同道中人,还是在校生朋友们(找方向 or 转专业 or 找实习 or 校招)都会有一定的帮助。
- 如果看完这个帖子后,仍然对转型有疑问的话,可以评论区留言或者私信咨询我,告诉我你的学历背景、实习经历(如果有的话)以及想转型的岗位等情况,我会根据你的现状给出适合你的转型建议。
- 后续我会根据情况补充其他的内容,比如
- 如何修改简历以增加筛选通过率
- 如何选取适合自己投递的岗位和投递时机
- 分享个人的面经、知识笔记和题库
- 如何根据自己的情况定制具体的学习计划
- 如何争取大模型项目的主导或者参与权 or 如何从0开始自己的个人项目
- 具体看大家有没有这方面的需求吧,如果觉得有用,可以点赞收藏关注,并且在评论区提问。
- 我后续还会继续更新,感谢朋友们的支持~
查看3道真题和解析