字节校招大模型Agent二面
1.请介绍 Transformer 的结构组成及各部分作用
2.如何降低 Transformer 的计算复杂度?常见的稀疏注意力变体有哪些?
3.LoRA微调的原理是什么?秩 r 的选择会对模型表现产生什么影响?
4.kv cache是什么?为什么能极大地提升推理速度?
5.RAG的完整流程,构建向量检索库时如何处理时间衰减对召回的影响?
6.微调时的训练数据是怎么构建的?如何保证样本多样性和质量?
7.在 RAG+知识图谱的 Agent 系统中,知识图谱更新的机制是怎样的?是怎样保证实时性的?
8.训练 LoRA 模型时,你是如何选择冻结层的?依据是什么?
9.在高并发查询 Agent 系统中,你会如何优化召回和生成阶段的延迟?
10.大规模 Agent 系统在多线程/多进程场景下的资源调度策略如何设计?
11.如果你要在 GPU 资源有限的条件下同时提供推理和微调服务,如何做资源分配和任务调度以保证时延和吞吐?
12.代码:lc15 三数之和
2.如何降低 Transformer 的计算复杂度?常见的稀疏注意力变体有哪些?
3.LoRA微调的原理是什么?秩 r 的选择会对模型表现产生什么影响?
4.kv cache是什么?为什么能极大地提升推理速度?
5.RAG的完整流程,构建向量检索库时如何处理时间衰减对召回的影响?
6.微调时的训练数据是怎么构建的?如何保证样本多样性和质量?
7.在 RAG+知识图谱的 Agent 系统中,知识图谱更新的机制是怎样的?是怎样保证实时性的?
8.训练 LoRA 模型时,你是如何选择冻结层的?依据是什么?
9.在高并发查询 Agent 系统中,你会如何优化召回和生成阶段的延迟?
10.大规模 Agent 系统在多线程/多进程场景下的资源调度策略如何设计?
11.如果你要在 GPU 资源有限的条件下同时提供推理和微调服务,如何做资源分配和任务调度以保证时延和吞吐?
12.代码:lc15 三数之和
全部评论
相关推荐
2025-12-24 15:05
门头沟学院 Python 牛客60944174...:数据源会是多源,多数据格式(包括多模态、结构化、JSON,graph等),怎么把数据进行加载清洗处理,得到合适的数据,如果一篇文章很长,怎么做分块,是直接分块,还是重叠的分,为什么这个场景要这样,有没有更好的分块或者压缩方法。在召回阶段,你的query要怎么重构,例如用户问题是“这个是什么?”这样就是语义很不清晰的,要怎么把query重构成一个语义清晰的问句,才能在查找的时候提高命中率,以及你算完相似度之后重排和召回有没有什么优化,是直接根据向量相似度排序吗?有没有别的重排参数,这些都可以优化。除此外,你的RAG应该是每次调用LLM都用一次的吧,你能不能针对每一个场景写一个表,然后分别打包成MCP,让LLM自己决定要不要用RAG,用哪个RAG,怎么用RAG,这些都可以深挖,除此外,基于向量数据库的RAG有标准流程,你可以对照每个阶段,都做一些工作。希望我的分享对你有帮助。
点赞 评论 收藏
分享
查看8道真题和解析