阿里大模型一面

1. 在LLM推理里,我们经常听到一个词叫prefill,能解释一下它是什么意思吗?

2. 我们来聊聊Transformer的基础吧。能先介绍一下Softmax函数吗?然后整体讲讲Transformer模型,特别是里面的QKV(Query, Key, Value)机制,能详细说说这个过程吗?

3. Transformer的训练复杂度还挺高的,尤其是在处理长序列时。你了解哪些工作是致力于降低它训练时间复杂度的?

4. 长上下文(long context)是现在LLM的一个研究热点,你都知道有哪些方法可以解决或者缓解长下文问题?

5. GQA(Grouped-Query Attention)的原理是什么?它又是怎么实现的?

6. 现在主流的大模型,像GPT系列,大多都用的是Decoder-only架构。为什么不采用像T5那样的Encoder-Decoder架构呢?

7. LoRA作为一种高效的微调方法,它的核心原理是什么?能讲讲吗?

8. 为了优化推理速度,KV Cache是一个很关键的技术。它的原理是什么?

9. 我们来聊聊你的项目经历吧。可以挑一个你觉得最有意思的实习、论文或者科研项目详细讲讲。

10. 来个场景题吧。假设我们是做电商的,你觉得可以怎么用大语言模型来解决我们的一些实际业务问题?

11. 最后来做两道算法题吧。第一道是“无重复字符的最长子串”,第二道是“排序链表”。

全部评论
已经很强了
点赞 回复 分享
发布于 08-26 17:46 上海
我之前面阿里云,被拷打的不行了
点赞 回复 分享
发布于 08-26 17:02 河北
感觉提问好简单
点赞 回复 分享
发布于 08-25 17:43 河南
牛蛙,阿里云,强度太高了
点赞 回复 分享
发布于 08-25 14:42 上海

相关推荐

评论
5
30
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务