b站数开实习面经

视频面,共计1h

1. 自我介绍
2. 项目中的难点  答:我实时和离线都各介绍了一个
3. 日常需求的开发,是怎样的一个流程 答:从业务方提出需求->数仓的建设分层->上线
4. hive或者spark日常调优的一些参数  答:我这里列举的主要是数据倾斜方面的spark和hive
5. 我还想介绍row_number()倾斜的参数,面试官问我用过哪些窗口函数? 答:row_number、rank、dense_rank
6. 区别是什么? 答:row_number 是 123 rank是11115 dense_rank是 11112
7. 如果业务方说要绘制个标签画像,你会提取哪些数据给他 答:有些乱答了,这个不咋会
8. coding:6道题,第1道题是最大播放量及分区播放量所占比例 2道题是次日登录 最后一道题包含4个小问,topk、最大分区及其播放量、炸裂、正则

反问:

1. 面试官评价:挺不错的(第一次收到正面评价)
2. 业务部门主要干啥
3. 实习生主要干啥

其他的记不太起来了
全部评论
要不要投下米哈游?26届秋招有个数开的hc
点赞 回复 分享
发布于 2025-08-07 08:00 上海
boss罗女士投的吗
点赞 回复 分享
发布于 2025-07-18 17:45 陕西

相关推荐

发一下问题给大家参考,攒攒人品!有面试过同岗的朋友欢迎评论区交流1.实习拷打2.项目拷打3.处理查询文档里的异构数据(如图片)时,具体的处理流程是什么?解析成纯文字后如何进一步加工?这样只返回文字给用户,图片信息不会丢失吗?4.你们是通过人工打标建立图片和文本的对应关系吗?文档量很大的情况下,打标工作能完成吗?5.如何保证大部分图片异构数据解析后回答的正确性?若回答错误,怎么识别问题?后续要验证回答准确性,你有什么方案?6.用于评测的另一个大模型,如何构造问题、分析文字并进行对比?这个大模型的正确率以及模型自我一致性怎么确定?7.你们的模型基于哪些异构图像做增强?模型会不会产生幻觉,生成文档外的内容?8.若用户的问题不在文档里,你们会怎么处理?是调用其他模型吗?大模型回答不了时,会提示用户补充问题吗?用户补充后仍无法解决该怎么办?模型如何判断何时需要让用户补充提问?9.你们有框架编排这些流程吗?用的是什么框架?10.怎么理解检索召回率?这些指标具体包含哪些评价项?什么是忠实度?召回率的分子分母是怎么定义的?11.你之前那段实习的具体工作内容是什么?针对设备故障叙述报告这类复杂文本,模型如何理解?是做了相关检测吗?大模型是怎么实现术语解释的?12.请讲一下LoRA技术,除了减少参数量,它还有什么优点?你做的LoRA相关工作,后续有落地应用吗?13.你写代码主要用Python吗?会不会用Java?了解Java的多线程、双亲委派模型以及消息中间件吗?有没有做过Java相关项目?
点赞 评论 收藏
分享
评论
1
16
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务