最近也是量化和风控都来找我了

你们是真不看附件嘛😅
全部评论

相关推荐

一、面试问题A. 项目经历与业务理解1. 实习1. 先介绍一下你的这段实习经历。2. 听起来你的工作主要集中在数据/样本构建上,是吗?3. 你这里写了 VQG 和 VQA 一致性评估,这里的“一致性评估”是什么意思?4. 所以你的意思是,让大模型先生成问题,再生成答案,然后看问题和答案是否对得上,是吗?5. 所以最后是不是回答不一致的样本,就说明它比较难?6. 这个项目过程中,你有做过哪些模型方面的工作?2. LLM-as-a-Judge 项目7. 研究生阶段你还有一个 LLM-as-a-Judge 的项目,能大概介绍一下吗?8. 你最后这个总分好不好,是通过一个下游任务来验证的吗?9. 如果我理解得对,就是你打分之后选 Top 20% 的数据去微调,再和随机选 20% 做对比,是这个意思吗?10. 这个事情听起来很像样本选择,甚至有点像强化学习,你有从这个方向考虑过吗?B. 强化学习基础11. 你对强化学习了解吗?系统地学习过一些强化学习的方法吗?12. on-policy 和 off-policy 分别是什么意思?13. importance sampling 是什么?14. DPO 和 PPO 是什么关系?它们有什么区别?C. LoRA / 参数高效微调(这里因为我简历写了一个LoRA所以面试官追着来杀)15. 你在项目里用 BLIP-2 做了 LoRA 微调。LoRA 为什么可以省显存?16. 你虽然加的是一个低秩小矩阵,但不管多小,参数总归是增加了。那为什么在参数增加的情况下,LoRA 反而还能省显存?17. 推理的时候呢?推理阶段用 LoRA 和不用 LoRA,有什么区别?效率上有什么影响?D. 多模态模型 / VLM1. BLIP-2 相关(因为LLM-as-a-Judge里面提到了这个细节)18. 你为什么选择 BLIP-2 做微调?选择 BLIP-2 的考虑是什么?19. BLIP-2 相对于 BLIP 有什么改进?2. VLM 路线理解20. 你对 VLM 这条线还有哪些了解?之前有关注过哪些相关工作?21. Qwen VL 了解吗?22. 相比于 LLaVA,Qwen-VL 有哪些不一样的地方?你有没有了解过?E. Transformer / 大模型基础23. Position Encoding 是什么?有哪些分类?24. 旋转位置编码、绝对位置编码,是直接加到 token embedding 上的吗?25. 相对位置编码呢?比如 RPE 这种,它一般是加到哪里?26. decoder 里面 causal attention 是怎么实现的?F. 手撕:最长不重复子串二、反问1. 部门目前主要负责的业务内容是什么?团队主要在做哪些事情?部门整体是做风控的,负责平台上的各类风险问题。大的方向包括内容风险,比如违规图片、违规文本;也包括用户层面的欺诈、作弊等风险。具体到他们团队,主要做几类事情:一类是机器作弊流量和攻击检测,比如爬虫、自动化攻击、人工获取数据等;一类是人机验证相关能力,比如真人检测、验证码等还有一类是识别图片、文本里隐藏得很深的网址,并判断这些网址的风险,这些网址往往会把用户引到站外赌博、色情等高风险网站。2. 这个岗位平时更 focus 哪些算法领域?更希望候选人掌握哪些知识、算法方向和工程经验?首先还是需要有大模型基础,对大模型的一些基础概念和原理要比较了解。其次,像他们做隐藏网址识别这类任务,如果输入是图片、图文、视频,本质上就是一个 VLM 问题,所以也会希望候选人具备多模态/VLM 方面的理解。还有一块是 Agent,因为他们现在也在探索用 Agent 节省人力、提高效果,所以这方面也有需求。至于为什么会追问 RL,是因为 Agent 往底层看,算法基础还是会和 RL 有关系,所以他们对这方面也是有期待的。3. 这个部门属于哪个业务?是抖音还是 TikTok 相关?会和哪些部门合作?这个部门属于 Data,可以理解成字节的中台部门。风控相关的很多需求会收在他们这里,所以也可以把他们理解成风控中台。抖音和 TikTok 两边的风控中台需求都会提到他们这里,也就是说他们同时支持抖音和 TikTok 这两边的业务。4. 这份实习是日常还是暑期?HC 情况大概怎么样?转正 HC 的情况面试官自己也不太确定,目前应该还没有完全定下来,这块后续可以再和 HR 沟通。实习本身要求至少三个月,团队会更希望实习时间长一点,因为前期熟悉业务和环境本身就要花不少时间,太短的话不利于真正做出产出。5. 团队里做的内容主要是业务算法 / pipeline 搭建,还是也会有研究课题、论文产出的可能?整体还是更偏业务,不太支持以论文为导向的事情。但也不是说让实习生直接上来扛复杂业务指标。通常的做法是从复杂业务问题里,抽取出一个相对独立、偏技术、带一些探索性的点,让同学在这个方向上做出产出。所以更偏“从业务中抽技术问题来做”,而不是纯学术研究。6. 为什么字节有些组会支持论文或者研究产出,但你们组看起来不太支持?是岗位性质不一样吗?这个团队是要为业务结果负责的,所以判断标准首先是对业务有没有帮助。面试官比较直接地表达了他的看法:很多论文并不能真正解决业务问题,甚至会被视为“水论文”。他们并不是完全排斥研究,而是强调如果某个具体业务问题确实值得研究、也确实需要前沿技术去解决,那么可以研究;但最终目标仍然应该是服务业务、能落到线上,而不是为了论文本身去做。7. 这轮面试之后,我大概多久能知道结果?正常情况下大概三天之内会有结果,但最终还是要看后续 HR 推流程的节奏陪一张昨天下午在教室拍的一角夕阳
点赞 评论 收藏
分享
感觉Python相关的面经和八股很少,主包主要分享下自己的一些面试,都是一些基础,少数涉及项目最近面的一家1.最常使用的 Python 版本?常用3.6和3.12,提到新版本中字典的+=操作的字节码变为原子操作,以及3.14正在尝试移除GIL锁。2.提到了多线程,问对Python中进程、线程与协程的理解从操作系统轻量级进程(LWP)角度回答的,多线程、多进程都对应多个LWP,但是一个进程对应一个解释器,GIL锁导致多线程只能利用单核,而协程是在用户态通过事件循环实现的应用层调度,只对应一个LWP。3.这3个并发模型的应用场景?多线程常用于传统Web开发中IO密集操作;多进程用于启动多个Worker利用多核;协程更适用于处理IO密集型任务,但容易被计算操作阻塞事件循环,多线程则不会。4.举几个 Python 魔术方法的例子。举例说明了__new__(构造单例)、__init__(初始化)、__call__(类装饰器)、上下文管理器(__enter__/__exit__)和迭代器(__iter__/__next__)等方法。5.对元类的理解元类类的类,是控制类生成阶段的钩子,举例实习中曾见过通过元类为类的方法自动添加限流,但通常能用继承或装饰器解决的问题不会使用元类。6.提到类生成,问有没有了解过子类生成的魔术方法__init_subclass__不知道,之前没有了解过……7.静态注释覆盖率自己开发基本会全量覆盖注解和必要注释,以追求代码自解释性(其实想问的是类型注解,没理解对,不过也答了相关的内容)8.对 Pydantic 的理解Pydantic通过类型注解实现数据校验和序列化,V2版本用Rust重写核心以提升校验和序列化这种CPU密集型操作的效率,可使用Field对象和装饰器+自定义方法定义字段或字段间校验。9.Pydantic如何从类中读取声明并完成 Schema 校验?没看过这块源码,推断是从类的__annotations__私有变量中提取类型注解信息,然后再进行处理。10.是否尝试过用 Pydantic 对第三方或自定义类(不继承BaseModel)做声明?没有做过……11.开发中有遇到数据库死锁的情况吗?开发中未实际遇到过死锁,但举例可能场景,可通过在事务中按字段排序固定顺序操作数据库来预防和解决。12.接触过的数据库表或Redis Key最大数据规模有多大?因为实习项目都是ToB私有化部署,接触过最大也就单表不到千万级几百万的数据量,跟面试官说想考察优化和治理策略可以给场景。13.讲一下实习中提到的租户资源多线程查询慢的问题,是如何发现、排查和解决的?(面试官可能以为这是个数据库优化)通过本地打印线程耗时发现,根因是元类为调用其它SaaS接口的client的所有方法添加了粗粒度限流导致。14.DevOps 实践经验?实习项目中使用GitLab的CI/CD流水线,了解其YAML配置文件的写法及代码检查、依赖扫描等钩子作用。15.个人玩具项目中状态机和 Outbox 的设计(第一个问我玩具项目的面试官!)状态机是通过定义字典控制对象状态的合法流转以及流转动作;Outbox模式通过在数据库事务中新增本地消息表插入待发送消息,用定时任务补偿发送失败,来保证操作原子性与一致性。16.本地响应很快的接口,到线上需要6、7秒,会从哪些方面排查?采用分治思想,从前后端全链路、本地与线上环境差异、数据库、缓存网络延迟、以及服务器资源耗尽(如TCP连接队列满)等层面排查。(面试官说没有提到主要的用户前端请求进入服务器的完整链路,比如DNS解析、CDN分发等)总结:面试官很nice,其实主包一直是对自己对Python底层的理解还是很自信的,开发框架和一些常用的模块都看过源码,但是面试官还是能顺着我说的拷打我(基本上一般面试官想拷打我需要在他的场景追问才行,这个可以顺着我的理解追问),但是最后还是很认可主包的之前面的一家1.实习中数据模型初始化操作健壮性优化怎么做的?针对其它SaaS不同版本可能出现同一个接口不同的表现形式,通过读取环境变量切换执行逻辑,同时针对资源名称哈希值可能重复的问题,分别增加了版本判断校验逻辑和基于“实例名+删除时间”的联合唯一校验字段。2.Python是强类型还是弱类型?Python是强类型语言。3.Python是动态类型还是静态类型?Python是解释执行的动态语言,代码由Python虚拟机中的解释器逐行解释执行,但也会编译成.pyc字节码文件。因为运行时才知道数据类型,Python函数本来就能接受和返回不同类型 一些模块源码中常用Overload装饰器主要是为了通过静态检查工具和方便开发者阅读。4.Python有哪些数据类型?Python中一切皆对象,常用数据类型包括整型、浮点型、字符串、列表、字典、元组和集合。5.哪些数据类型是可变的,哪些是不可变的?整型是不可变对象,重新赋值其内存地址会变;列表是可变对象,修改内容其内存地址不变,并举例说明将可变对象作为函数默认参数会引发数据串扰问题。5.熟悉的魔术方法?老演员6.元类的理解依旧老演员7.既然很多能用继承解决,为什么一定要引入元类?只有继承解决不了问题的时候才需要用元类,比如框架设计让开发者继承就可以自动注册自定义插件而不需要加类装饰器,或者真的需要控制类的生成而不是类的表现。8.写基本SQL语句有哪些关键字?SELECT、FROM、LEFT JOIN、GROUP BY、WHERE、HAVING和LIMIT等常用关键字。9.SQL语句的执行顺序是怎样的?从FROM开始,然后SELECT选择列和行,最后LIMIT10.Django ORM分组写法记不清api了…但好像也说对了annotate总结:半小时初面,看主包底子没啥问题还要面下一个候选人就结束了……主包是误打误撞学的Python后端,最近也学了一些agent开发,当然时间紧没有太深入学也没有大量投递这些岗位,不过感觉如果面试得是用Python做agent开发的公司,应该这些也都可能会问(其实之前还有面的一家岗位写的后端,实际是agent,然后面完还给我发offer了,我的感受是其实agent开发和后端工程落地还是蛮像的…如果你不去深究大模型本身的话)
查看26道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务