阿里千问算法实习一面-多模态

继续来分享下之前的面经~欢迎友好讨论,信息共享
1.项目细节深挖
2.除了caption数据,为什么还要做一些VQA、reasoning、summary数据呢?
3.解释为什么VQA、conversation、reasoning数据可能会提升模型效果
4.当时的消融实验是完全消融吗?具体怎么做的?
5.你的关键帧是怎么做的?
6.技术报告看过吗:glm-4.1V,qwen3-vl,mimo-vl,kimi-vl,seed-1.5-vl
7.你有仔细去看现在主流的VLM是怎么去洗数据,或者是怎么构造整套pipeline吧
8.假如说你参与到这个进程中,你怎么看待接下来的趋势,或者说你拿到一个STEM任务类型,你会怎么去做,你觉得现在技术报告里的缺点在哪里,你有什么想法吗?
9.使用VLM-as-judge做整套的数据清洗pipeline,从合成、清洗、过滤、验证、合并,这块有了解吗
全部评论
千问就来面试了吗
点赞 回复 分享
发布于 03-12 21:34 北京

相关推荐

发一下问题给大家参考,攒攒人品!有面试过同岗的朋友欢迎评论区交流1、你如何把"模型能力演进"拆成一张可执行的效果策略路线图,并做价值判断?(请用你主导过的一个真实项目举例:从机会识别策略拆解落地方案上线验证)2、给定业务目标:把视频AIGC做成"可规模化使用"的生产力工具,你会如何定义'效果'而不是'"炫技"?3、你如何把"模型可调用能力(API参数/上下文等)"转成产品可控的效果杠杆?(以一次你做过的参数/链路设计为例)4、当模型持续迭代带来"质量波动/回归",你如何设计效果守护与灰度机制?5、假设你要做电商广告:文生视频/图生视频,强调多镜头叙事与15s成片。你会如何定义上线可用的效果目标与红线?6、"多镜头&智能分镜调度"这种能力,你如何拆成模型侧与产品侧的交付边界?7、你会如何设计'人物一致性/音色一致性/多人物稳定性'的指标与评测方法?8、从0到1做视频AIGC:你如何设计"离线评估线上实验用户采纳复盘迭代"的闭环?9、视频生成常见范式包括:文生视频、首帧/首尾帧、多图生视频、图+音频口型等。若你做"一键短视频生成"产品,你如何选择能力组合与迭代顺序?10、算法团队说:'先做参考生视频保证一致性',业务团队说:'先做文生视频追求多样性与创意爆款'。你如何做决策并对齐里程碑?11、假设你要做"视频创作Agent",你会如何划分:规划、工具调用、生成、剪辑编排、验收?12、你如何判断一个需求应该做Agent(自主决策)还是工作流(确定性步骤)?13、你如何为Agent设计"效果评估指标",既覆盖任务成功率,也覆盖创作质量与用户信任?14、请你设计一套"生成类能力效果质量评估标准"的三层体系:模型目标效果、训练过程质量、用户体验指标。要求能作为算法迭代的Gate。15、上线后采纳不达预期:你如何复盘并证明问题出在"效果不足"还是"产品路径/成本/时延/心智"导致?
点赞 评论 收藏
分享
点赞 评论 收藏
分享
评论
1
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务