10.29秋招字节数仓一面

1.实习相关问题(实习做的主要是数据仓库湖仓一体相关的东西,比如读写外部服务器上的大数据格式文件这些东西)
2.了解数据湖吗(hudi,iceberg这些)
3.非结构化数据或者说多模态的数据用向量化存储,为什么能解决查询问题?
4.设计一个向量数据库,需要哪些模块和核心能力?
5.机器内存不够的情况下,如何取出几个大文件中出现频率最高的URL(搞底层的面试官真的很喜欢问内存不够,三面的时候问了同样的问题)
6.刚才你有说到大根堆,实现一个大致的大根堆
反问:业务和部门人数这些
全部评论

相关推荐

1.列举几种数据倾斜的情况,并解释为什么会倾場咏,以及如何解决?2.解释一下 SQL 运行步骤,是否有优化空间如果有,如何优化:SELECT a.id,b.nameFROM a LEFT OUTER JOIN bON a.id =b.idWHERE a.dt='2016-01-01'AND b.dt='2016-01-01';3.已知表 a 是一张内部表,如何将它转换成外部表?请写出相应的 Hive 语句4.用 select 做查询时,用哪个函数给值为null的数据设置默认值?5.Hive 中,建的表为压缩表,但是输入文件为非压缩格式,会产生怎样的现象或者结果?6.订单详情表 ord_det(order_id 订单号,sku_id 商品编号,sale_qtty 销售数量,dt 日期分区),任务计算2016年1月1 日商品销量的 Top100,并按销量降序排序7.某日志的格式如下:pin|-lrequest_tm|-url|-|sku_id|-|amount,分隔符为"-',数据样例为:张三-|q2013-11-2311:59:30-www.jd.com-100023-110.15。假设本地数据文件为 sample.txt,先将其导入到 hive的test 库的表t_sample 中,并计算每个用户的总消费金额写出详细过程包括表结构8.test.log 日志中内容如下左列所示,使用awk 输出右列 4行数据:左列:10-3-jd-dv、2-4-jd-dv、5-7-pv-click、36-24-pv-uv、37-24-pv-uV、24-3-uv-mq右列:10-4-jd-dv、5-7-pv-click、37-24-pv-uv、24-3-uv-mq9.Storm 的分组策略有哪些?
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务