虎牙数仓实习

自我介绍
kafka如何解决生产消费速度不对等
数仓建模理论
维度退化，优点和缺点
拉链表如何设计的
spark会用吗，spark 哪些join
每一层的评价指标，如何判断建表的好坏
多流join的风险和解决
flink 有哪些join
大模型的应用了解吗
SQL两道给思路

第一次面试紧张死了
全是项目和业务逻辑，没有一点八股，但上个星期一直在背八股，项目不太熟

答的一塌糊涂，sql也写的磕磕绊绊。估计没戏了

全部评论

推荐最新楼层

神啊给我一个offer吧

门头沟学院后端

佬怎么样，约二面了吗？

点赞回复分享

发布于 02-28 20:21 广东

blue~blue~

阿里巴巴_测试开发工程师(准入职)

大佬考虑上海米哈游不，我们正在春招，实习也有，可看我主页看岗位，感兴趣可直接投递

点赞回复分享

发布于 02-24 12:54 上海

04-26 14:47

已编辑

武汉理工大学大数据开发工程师

我经历了一场“荒诞到爆炸”的面试，面试官声称豆包评他全国前500……

全部对话：传送门一、背景交代：本人26届本科生，最近在找数据开发方向实习，简历主项目是一个离线数仓项目，用了Python + ClickHouse + SQL + PowerBI。这家公司是我在BOSS上无意间看到的，一家初创企业（应该），投了之后直接就约面试了。一开始我还挺重视的，想练练项目介绍，结果——结果就是这篇帖子的标题。二、面试实录：“说话人1（我）”和“说话人2（面试官）”说话人1（我） 00:00 开始讲项目我先老老实实介绍我做的离线数仓项目，比如怎么从3.7GB的淘宝数据中筛选出核心“中间九日”，如何建立转化漏斗分析路径（PV→Cart→Buy），又为什么舍弃Fav行为，如何用...

真烦好烦真烦：这老板叽里呱啦说啥呢，建议去神经内科就诊

哪些公司面试官让你印象深刻？我的求职精神状态

点赞评论收藏

05-20 11:07

马鞍山学院大数据开发工程师

字节数据开发面经

结果：准备的不太好一面挂岗位类型：日常实习1.我看你spark用的比较多，我问你spark的问题吧，sparksql怎么转为底层的执行？2.解释一下RDD，包括RDD特性等。3.数据倾斜你是怎么解决的呢？4.spark shuffle的优化。5.spark 相关源码有了解吗？6.SQL题，行转列json的拆分(可能是用get_json_object?)（写不出来————）+ lateral view 7.还有个开窗题，dense_rank() 和 sum()的开窗。8.Dense_rank,row_number,rank的区别。9.为什么要设计DWD层，直接DWS层从ODS中读取可以吗？10.拉链表优点缺点。

查看11道真题和解析

点赞评论收藏

04-25 18:38

已编辑

佛山大学大数据开发工程师

亚信科技（北京）数据开发一面

1.简单介绍一下项目2.假设现在有一张表数据重复，用两种方式去重3.数仓分层及其作用4.数仓为什么要分层5.缓慢变化维是指什么，常见处理方式6.ETL分别指哪三个步骤7.星型模型和雪花模型的概念及其区别8.Hadoop有哪些组件9.Hive的外部表和内部表有啥区别反问：入职之后主要干啥，刚才答得怎么样PS：面完之后我感觉是kpi，但是面试官又追问我什么时候可以入职（听他的意思有种想让我51后入职的感觉，但是我说最早可能得6月，然后他说回去组内再商量一下），然后夸我基础扎实，我说是不是安慰我（因为感觉他问的很简单，然后我上午面试刚被拷打完。。。），然后他解释说他之前面的几个人答得很不好（？？？）

亚信科技（中国）有限公司一面9人在聊

查看9道真题和解析

点赞评论收藏

05-07 23:40

门头沟学院数据分析师

从小白成长到大牛关键：Flink在实时计算如何调试或查看中间结果（蚂蚁金服、虎牙、BIGO面经））

在大数据处理的浪潮中，Apache Flink 无疑是当前最炙手可热的流式处理框架之一。它以低延迟、高吞吐量以及强大的容错能力，成为无数企业构建实时数据处理管道的首选工具。不管是实时日志分析、用户行为监控，还是金融交易的风控系统，Flink 都能游刃有余地应对海量数据的持续流入。然而，开发和维护一个高效的 Flink 程序绝非易事，尤其是在面对复杂的业务逻辑和动态变化的数据流时，调试和查看中间结果就显得尤为关键。想象一下，你辛辛苦苦写好了一套 Flink 程序，部署到集群上后却发现输出的结果和预期完全不符。数据丢失了？还是计算逻辑有偏差？又或者是某些算子在处理时遇到了瓶颈？这个时候，如果没有有...

大数据从入门到精通-最全...

点赞评论收藏

04-25 22:24

武汉理工大学大数据开发工程师

4.25腾讯云智数开一面

1. 基本情况方向：数据工程，时间：40分钟结束、16:00开始，无手撕，多场景2. 自我介绍3. 一些能够回忆起来的（或许有不正确的地方）：（1）提问R：你这个项目是课程作业还是什么？R：那你说说Hive和ClickHouseR：你谈到了OLAP，那和OLTP有啥区别？R：没了？ClickHouse适合那种场景？R：可以用作实时数仓吗？R：课程中有数据库相关的吗？只有数据结构与算法？R：MySQL系统学习过吗？R：数据怎么导入到ClickHouse的？R：直接到ClickHouse？R：数仓分层？四层讲讲。R：那为什么要分层呢？DWS已经差不多了为什么还需要ADS呢？R：场景题：在你的表上新...

牛客861513826号：A场景题：数量统计不说了；退货平均时间：先沟通清楚，月平均退货时间算不算上不退货的用户，不算的话，就只计算退货用户；一个用户的退货时间减去到货时间拿到这件商品的退货时间，然后计算每个退货用户的退货时间，AVG开窗partition by月份，计算出每个月的平均退货时间。如果要算上不退货的用户，也就是让这个用户的退货时间是0，然后对所有用户计算AVG同上。 B场景题：结合下面他提示你再想想数据倾斜，其实这道题是想靠你数据倾斜怎么解决；本来是一个商品购买信息表，记录商品信息和购买者信息，如果给购买者信息加上性别，要求算出每个商品不同性别的购买人数。百分之八十女性用户，所以如果单纯对表进行分组聚合，会产生数据倾斜问题，由分组聚合产生。五种办法可以解决，两种hive参数，三种SQL，往SQL方向聊，以防他追问参数底层，参数这种东西最难聊了，别给自己挖坑

查看29道真题和解析数据人的面试交流地牛客解忧铺

点赞评论收藏