观见智联-算法实习生(视频大模型)面经

算法:
一、算法题 & 代码思路
滑动窗口最大值的解题思路是什么?
为什么选择使用双端队列?
双端队列维护了哪些内容、具备什么性质?
口述讲解这道题的整体思路(被judge怀疑写力扣不够多了)

八股:
二、大大模型模型预训练流程
一个开源大模型在预训练过程中会经历哪些步骤?
你是从哪些方面、哪些渠道学习并理解这些预训练知识的?(可能这里开始质疑我有点背答案的逻辑了)
BERT 和 GPT 架构最核心、最本质的区别是什么?

四、简历拷打
开始从项目去拷问:
你所理解的视频理解是粗粒度总结,还是细粒度描述?能否捕捉动作的开始、过程、结束?
固定摄像头场景单一有限,用大模型做事件判断性价比是否不高?
简单任务(如闯入检测)是否用小模型、路由、MoE 架构更合适?
这种情况下,使用视觉大模型(VLM)的意义在哪里?
用大模型做数据预标注,为后续小模型服务,这套思路是否合理?
大模型在工业落地中,真正的性价比体现在什么地方?

五、反问
1,公司业务是否会涉及视频细粒度动作理解?不只是判断 “动作是否发生”,还要精确识别动作发生次数,避免重复扣费、误扣费这类问题。
回答:确实有这类细粒度视频理解与识别需求,核心是精准、不重复、不误判。
目前业界 / 团队常用方案:
用多个专用小模型组合,针对特定任务做定制化小模型。
采用 MoE(混合专家模型) 架构,但不是简单路由,路由逻辑需要专门设计,用来解决特定任务。
现在也在探索:
利用大模型 / 大语言模型的能力,提升复用性,希望换任务也能快速适配,减少重复开发,因此在尝试搭建新架构。

2. 关于细粒度视频数据 & 数据集构建
训练这些细粒度识别小模型时,数据和标注是怎么获取 / 构建的?
回答:采集行业真实数据
主要流程:
采集行业真实数据 → 交给外包公司标注(YOLO、分割等常规标注)。
模型上线部署后,把线上回传的困难样本 / 错误样本再人工补充标注。
整体思路:
先众包 / 外包大规模标注
再人工筛选、修正难例,是业界比较经典的做法。

3,面试官一般怎么判断面试者有没有背稿、有没有用辅助工具?
回答:
看表达一致性
真实做过的人,叙述风格、逻辑是统一的;
背稿 / 套话,容易在切换问题时风格断裂、内容漂浮。
看是否聚焦问题本身
真懂的人会顺着问题深入聊;
套答案的人容易答非所问、逻辑不连贯。
紧张很正常
面试少、科研多的同学容易紧张,多面几次就会像日常学术聊天一样自然。
建议把面试当成和老师 / 教授学术讨论,懂就说懂,不懂就坦诚,重点看人岗匹配。

大概率寄了,就当聊聊天
全部评论
感谢大佬贡献的面经!!很有价值诶~~我私信你啦
点赞 回复 分享
发布于 03-05 14:14 北京

相关推荐

多模态模型横向对比除了 Video-LLaMA,还了解哪些主流多模态大模型?→ 常见的有 LLaVA、Flamingo、BLIP、BLIP-2、KOSMOS、PaLI 等简单介绍 ALBEF 和 BLIP 这两个模型的核心设计→ ALBEF:基于图像 - 文本对比学习,搭配动量蒸馏来优化图文对齐效果;BLIP:引入 captioner 生成高质量图文对,再结合 filter 机制筛选优质数据BLIP-2 的整体结构是什么?两阶段训练流程是怎样的?用到了哪些损失函数?→ 结构:在 ViT 和大语言模型之间插入 Q-Former 作为中间桥梁→ Stage1:冻结 ViT 和语言模型,只训练中间的 Q-Former→ Stage2:冻结语言模型,将 Q-Former 与 LM 连接,做指令微调→ 损失:ITC(图文对比损失)+ ITM(图文匹配损失)+ LM 生成损失微调方法(PEFT 全家桶)了解 PEFT 吗?再讲讲 LoRA,重点说明低秩假设的合理性→ PEFT 是参数高效微调的统称,核心是只训练少量参数而不动原模型权重;LoRA 假设模型权重更新量 ΔW 具有低秩特性,将其分解为 A×B,只训练 A、B 两个低秩矩阵,既节省显存又能保留效果除了 LoRA,还有哪些 PEFT 方法?Prefix-tuning 和 P-tuning 有什么区别?→ 其他方法:Adapter Tuning、Prefix-tuning、P-tuning、IA³ 等→ Prefix-tuning:在输入序列前加可学习的 prefix,作用于注意力的 K/V 矩阵,更适合 decoder-only 架构→ P-tuning:用小型网络(如 LSTM)生成连续的 soft prompt,解决离散 prompt 不稳定的问题,更适配 encoder-decoder 模型大模型训练范式你项目中用到的大模型结构是什么?多模态特征是如何喂给大模型的?→ 示例流程:视频帧 → TimeSformer 提取时空特征 → 特征池化 → 线性投影对齐到文本维度 → 拼接到文本 prompt 之前 → 输入 LLM大模型在做了指令微调后,为什么还需要 RLHF?→ 指令微调只是让模型学会遵循指令,但输出可能更偏向 “模板化”;RLHF 是通过人类偏好对齐,让模型输出更符合人类价值观、更自然、更有用的回答,解决 “有用性” 和 “安全性” 问题了解 RLHF 吗?描述它的完整训练流程→ 三阶段流程:① SFT 微调:用高质量指令数据对预训练模型做监督微调,让模型学会基本指令遵循② 训练 Reward Model(RM):用人类标注的偏好数据训练奖励模型,学习给不同模型输出打分③ PPO 优化:用 RM 作为奖励信号,通过 PPO 算法更新策略模型,最大化 RM 给出的奖励,实现与人类偏好对齐手撕 LeetCode 原题:合并 k 个升序链表→ 核心思路:用小根堆维护 k 个链表的当前节点,每次弹出最小值节点并入结果链表,再将该节点的下一个节点入堆,直到所有链表遍历完毕;时间复杂度 O (N log k),N 为总节点数
查看9道真题和解析
点赞 评论 收藏
分享
全是八股轻松拿下,面完隔一天就说 oc 了(接了之后突然和我说加面,后面过了但是说 hc 无了)1. Go 语言有哪些特点2. 值类型和引用类型有哪些3. slice 和 array 的区别4. map 是否并发安全 / 为什么并发写不安全5. goroutine 和线程的区别6. 栈内存和堆内存的使用场景7. Go 的 GC 机制8. 逃逸分析 (escape analysis)9. context 的作用10. MySQL 常用引擎及区别 / 适用场景11. MySQL 索引类型12. 事务四大特性 ACID13. 事务隔离级别及可能造成的问题14. MySQL 底层日志 binlog / redolog / undolog15. MySQL 主从复制原理16. Redis 常用数据类型及适用场景17. Redis 为什么快18. Redis 数据量过大时为什么会变慢19. Redis 持久化机制20. Redis 分布式锁21. 为什么 Go 推荐 goroutine + channel 但还需要 Redis 分布式锁22. 消息队列中间件使用经验23. IO 多路复用原理24. HTTP 有什么特点25. 多模态内容(用户/商品)的点赞/评论/关注聚合展示 - 表结构设计26. 异步写入的缺点 / 一致性问题27. 职业规划28. 自我评价29. 工作中遇到问题如何解决
查看29道真题和解析
点赞 评论 收藏
分享
评论
2
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务