腾讯CDG大模型一面-日常实习

1.项目八股
对于 Megatron-LM，多头注意力计算是使用的 TP 还是 PP，可以举个例子，比如说我现在注意力计算有16 个头，现在是有 4 个 gpu 做 TP，那么是如何进行实现的，是切分行还是切分列
2.手撕
最长递增子序列
3.反问
业务，对实习生的期望

全部评论

推荐最新楼层

变形钢筋

北京科技大学机械工程师

我也要去当鹅孝子了

点赞回复分享

发布于 02-05 18:15 北京

最重的瘦子

苏州大学 UI设计师

谢谢大佬分享~

点赞回复分享

发布于 02-05 18:15 江苏

02-10 10:49

滴滴_测试开发工程师

你的 RAG 系统可能正在“杀死”大模型的灵性

原文链接：HikariLan's Blog 当提到“如何为大模型提供大规模的可用于检索的信息”时，我们第一反应想到的大概率是 RAG 一类的解决方案，但现在我要说，基于文件系统访问（FileSystem Access）的检索方式可能远比使用 RAG 更好。 什么是 RAG？为什么需要 RAG？ **Retrieval-Augmented Generation（检索增强生成，RAG）**是一种可以允许 LLM 从大规模非结构化信息中进行语义检索的技术方案。 我们之所以需要 RAG，是因为大模型内置的知识内容可能不符合我们的需要，例如这些内容可能已经过时（因为用于大模型训练的语料库并不会随着使用者...

聊聊我眼中的AI

点赞评论收藏

02-07 06:35

昆明理工大学算法工程师

龙旗科技大模型算法实习一面分享

发一下问题给大家参考，攒攒人品！1.主要以项目交流为主，并非拷打，有点像讲组会2.Sota模型在对应场景测试效果怎么样3.你认为大模型在你项目中最大的误差来源于什么4.数据怎么准备的，怎么处理的5.AIGC生图是2d还是3d6.AIGC如何评定最终效果7.科研项目训练模型了吗8.一共用了哪些模型9.针对不同模型，如何调整提示词以适应其特点

查看8道真题和解析

点赞评论收藏

02-06 15:53

已编辑

快手_MLOps(实习员工)

写给工程同学的大模型初体验

背景概述：为什么要写这个呢？虽然现在大模型很火，但对于我们工程同学来说，把大模型当一个黑盒用就好了。一开始我也是这么认为的。直到我在小红书做到了一个需求在小红书的时候有一个需求是优化组内一个 agent 项目的响应和结果优化，这个 agent 是一个复杂的商业助手，并不是说技术很难，但要分析的广告业务很复杂，有上千个指标，好几种场景，prompt非常长，如果输出的效果不好，是没有人愿意用的。用了很多优化手段，比如并发查数据等等。有一天这个项目的正职同学和我说，他和算法那边的同学交流，说可以把我们动态拼到 System prompt 的指标数据拼到用户的 query 里面，这样就可以利用模型的 ...

八股战士0offer：虽然但是，你想表达的应该是学习如何agent工程里的提示词工程，而不是训练或者微调模型，这基本上是两个不同的方向。我认为学习agent主要就两个东西：提示词工程和上下文工程。像你说的prompt caching这种优化怎么能想到，建议多读大模型供应商尤其是anthropic的博客，anthropic大概一年前就有很详细的博客讲最佳实践和实现了