淘天Agent一面

一、手撕和八股
1. 手撕岛屿数量,秒了
2. Transformer 中 Attention 的本质是什么?你能从数学角度简要解释一下吗?
3. 在 Agent 多轮对话任务中,你觉得 Attention 的局限性体现在哪些方面?
4. 简要介绍一下 SFT的核心流程,以及数据集的构建策略,SFT之后常见的 Post-Training 还有哪些?它们之间的目的有何区别?
5.  什么是 RAG,它是怎么提升生成质量的?与传统检索 + 模型生成的流程有何不同?你是如何评估一个RAG系统是否work的?
6. PPO 和 DPO 在大模型对齐中的主要区别是什么?DPO 训练通常有哪些注意事项?用过GRPO么?

二、、业务场景相关相关
假如一个 Agent 推理链路包含 3 个工具 + 高频请求,系统整体延迟较高,你会如何优化?
全部评论
这已经是应用算法了吧
点赞 回复 分享
发布于 2025-10-25 18:21 上海

相关推荐

01-04 07:53
门头沟学院 C++
心愿便利贴:工作了以后回头再看待这个问题,从客观的视角来讲是因为每个人对自己的要求不同,学习好的人对自己的要求很高,所以觉得考不好就天塌了,认为自己学习好并且值得一份好工作的人也是一样,找不到符合自己预期的工作肯定也会觉得是侮辱,牛客上有很多名校大学生,肯定会存在这种好学生心态啊,“做题区”从来都不是贬义词,这是大部分普通人赖以生存的路径,这个有什么好嘲讽的,有“好学生心态”没有错,但是不要给自己太大的压力了
点赞 评论 收藏
分享
评论
1
19
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务