腾讯CDG大模型一面-日常实习
1.项目八股
对于 Megatron-LM,多头注意力计算是使用的 TP 还是 PP,可以举个例子,比如说我现在注意力计算有16 个头,现在是有 4 个 gpu 做 TP,那么是如何进行实现的,是切分行还是切分列
2.手撕
最长递增子序列
3.反问
业务,对实习生的期望
对于 Megatron-LM,多头注意力计算是使用的 TP 还是 PP,可以举个例子,比如说我现在注意力计算有16 个头,现在是有 4 个 gpu 做 TP,那么是如何进行实现的,是切分行还是切分列
2.手撕
最长递增子序列
3.反问
业务,对实习生的期望
全部评论
我也要去当鹅孝子了
谢谢大佬分享~
相关推荐
八股战士0offer:虽然但是,你想表达的应该是学习如何agent工程里的提示词工程,而不是训练或者微调模型,这基本上是两个不同的方向。我认为学习agent主要就两个东西:提示词工程和上下文工程。像你说的prompt caching这种优化怎么能想到,建议多读大模型供应商尤其是anthropic的博客,anthropic大概一年前就有很详细的博客讲最佳实践和实现了 点赞 评论 收藏
分享

查看8道真题和解析