首页 / 数据仓库工程师

#

数据仓库工程师

#

56251次浏览 174人互动

此刻你想和大家分享什么

热门最新

2022-04-27 18:30

已编辑

广东工业大学大数据开发工程师

数据仓库面试内容总结

数据仓库总结  一、数据仓库概述   首先，我们先来看下数据库、数据集市、数据仓库以及数据湖的概念。   1、什么是数据库？   数据库（Database）是按照一定格式和数据结构在计算机保存数据的软件，属于物理层。   最早期是广义上的数据库，这个阶段的数据库结构主要以层次或网状的为主，这是数据库的数据和程序间具备非常强的依赖性，应用有一定局限性。   我们现在所说的数据库一般指的是关系型数据库。关系数据库是指采用了关系模型来组织数据的数据库，其以行和列的形式存储数据，具有结构化程度高，独立性强，冗余度低等优点。   关系型数据库主要用于联机事务处理OLTP（On-Line Transact...

点赞评论收藏

分享

2022-06-22 19:58

已编辑

门头沟学院项目经理

面试官：能用通俗的方式说一下什么是数据仓库吗

想起之前面试，面试官问我：什么是数据仓库？能用通俗易懂的方式说一下吗？好家伙，这不正好是我的拿手好戏吗。好，开讲！ 什么是数据仓库 数据仓库（下文以“数仓”称），顾名思义，存放数据的仓库，它集合了各个业务系统的数据，以金融业为例，数仓包含了贷款业务、CRM、存款业务等数据。用于企业做数据分析、出报告、做决策；在有些公司也作为各业务系统的数据来源。 从逻辑上理解，数据库和数仓没有区别，都是通过数据库软件实现存放数据的地方，只不过从数据量来说，数据仓库要比数据库更庞大。 他们最主要的区别在于，传统事务型数据库如 MySQL 用于做联机事务处理（OLTP），例如交易事件的发生等；而数据仓库主要用于联...

摸鱼等退休：牛客的博客好像很少人看，发到帖子总有人看了吧

大数据从入门到放弃

点赞评论收藏

分享

2023-08-08 18:58

网易_数据开发工程师

群友提问:数据仓库项目如何衡量好坏

群友提问：最近面试发现面试官对“怎样衡量项目的好坏”考察的比较多，像项目产出的数据产品被多少人使用、配合高效使缩短排期实现提前交付这种，应该从哪些角度来回答呢？还是怎样衡量项目的好坏从层面来说1业务侧项目价值：很多同学无法判断业务提供的内容是否是有价值的项目，比如取数这个无法被称作是一个项目，更像是简单的需求，项目的价值是通过周期性建设数据资产对业务方提供分析帮助或通过数据服务/组件帮助业务提效，结合数分建设版图工作来说具备价值内容包括专题分析、经营分析这些能够给予业务方直观数据。2项目目标是否明确  ：结合第一点我们继续评估，项目目标清晰做到最后数分和数仓都没有项目成果，甚至数分对于到底从什么角度去分析专题内容都没思路，导致最终项目结束草草了事，对于这样的项目也是没价值的，反之运营、产品有明确目标例如要建设经营分析内容（经营分析模块对于数分来说是必做的事，也是能直接看到产出结果的事，专题分析则是探索去做，到底能不能实现，业务方认不认可，这个就待定了）。3数仓侧的价值 ：数仓侧的价值有业务和基建2个部分，如果1 2业务价值都确定了，那么对于数仓来说这个项目是具备价值的，并且能使用到最终达到的成果，基建侧价值在于夯实数仓基建（可以参考数仓建设版图），除了离线开发外也要确定数据质量、数据治理等基建有没有去做，如果是做一个大板块例如数据治理-计算资源优化 或者计算资源治理下公共数据模型沉淀那这些都是具备价值的，而且可以看到明确的资源降低，年度省了多少钱，反之如果只是优化两张数据表那这块不足以称之为项目的。4现有技术实现评估：如果业务方或者数仓内部评估要做一个项目然而技术实现不了，或者因为现有架构原因实现比较困难，那这个项目也是没有价值的，第2点说了业务的目标明确，放到第4点来说是数仓目标是否明确，能不能通过现有能力去搭建实现。

点赞评论收藏

分享

2021-03-12 19:54

已编辑

阿里巴巴_阿里云_开发工程师

又到一年春招时---更好的云，等更好的你

极速跟进，负责到底长期有效    简历投递：jon.wyz@alibaba-inc.com   来信必回！组内直推！实时跟进！不耽误你宝贵的秋招时间！   岗位：算法、JAVA开发、数据。其他感兴趣的岗位，也可邮件咨询，帮您内推。   邮件标题格式：姓名－学校－岗位－期望base地（北京或杭州） 简历文件名称同上（很重要） 例如: 张三－北京大学－JAVA开发－北京  投简历的同学已经开始组内面试，同学们请抓紧哦   已帮数位同学内推阿里经济体       还在犹豫的小伙伴可以先留下你的评论，我看到后会跟你沟通的，可以加我们的微信群详聊。   比较官方的介绍：      -----------...

粘豆包-277：点赞点赞非常心动！

点赞评论收藏

分享

2021-08-28 11:54

已编辑

东华大学数据分析师

2021秋招数据方向笔试面试记录

8.20后   1、8.21 10-12 小红书数据分析方向（卷1）   （1）15道选择题 单选加多选 共40分。数学排列组合求概率（大约三题）、 概率（一根绳子剪成三段，能拼成三角形的概率）、SQL语法和代码选择、统计学   （2）2道问答题（问答题之前没有刷题 凭感觉写的唉）40分   第一题：如何分析网站成交金额（gmv)突然下降20%   楼主从浏览量 转化率 购买人数 购买金额等方面展开回答   第二题：第一问为某电商店铺选择直播带货主播；第二问为评价所选的主播的直播带货效果    楼主从构建指标体系等四步展开回答   （3）1道SQL编程题（没有提供编程环境绝绝子...有给提示）...

想要一个offer呀...：lz美团有消息了吗

点赞评论收藏

分享

2022-03-29 17:54

已编辑

The Australian National University 数据分析师

腾讯-数据工程-暑期实习面经更新

其实不会数据工程相关的内容，被意外捞起来面的。记录一下攒点人品。但几天前的问题真的记得不清楚了，可能因为过于尴尬大脑自动过滤了😅   BTW，面试官人都超级的好！氛围不push，然后整个面试过程都很轻松愉快，给了很多引导（奈何我太菜了，以及技术栈和实习经历都偏数分 / 数科）      //一面 70min：     自我介绍；  java掌握到什么程度；  click house底层原理：😢；  一些零碎的问题，但因为真的都不会所以有点记不清了；  做了大概四五十分钟题；  回答了一个简历上的实习项目          //二面 85min：     看了下简历，没让我自我介绍 ；  面...

点赞评论收藏

分享

2021-04-22 17:05

已编辑

北京航空航天大学数据分析师

字节-懂车帝-数仓一二三面

最近boss上内推太多了，lz也投了几个，其中字节有反馈，问了问我想做哪方面工作，我说数据方面的吧，然后就给我推到了数据仓库岗位，具体过程如下       3.19一面：   1.自我介绍   这个东西准备一下可以让面试官觉得你对找实习很重视，我的自我介绍模板是，基本信息-学校项目总结（项目大体内容，目的，最终成果）-具体工作内容-用了哪些技术栈学到了什么东西-实习经历-实习内容   2.具体实习内容介绍   这个地方问了好多东西，真的是深挖，可能是学校项目和他们业务没啥关系，一点都没问   3.对hive的理解，hive与mysql的不同之处   4.数据库和数据仓库的区别   5.mysq...

点赞评论收藏

分享

2022-05-18 08:35

华北水利水电大学数据其它

浅谈数据仓库质量管理规范

今天和大家聊一下如何管理数据仓库质量如何管理。   一、 背景   现在数据仓库层面的工作越来越多，开发人员也越来越多，如何保障数据准确性是一项非常重要的工作，，数据仓库的很多应用数据直接呈现给用户或者支撑企业分析决策的，容不得数据出现错误。随着开展的业务越来越多，数据模型越来也多,我们管控的越晚就越容易出问题。尽管有数据仓库建设规范，同样在数据模型命名，数据逻辑开发，每个人都可能不一样，而这些也容易导致数据模型准确性的问题。我们迫切需要制定一套数据的准确性验证流程，让大家都按规范流程来做，保障数据的准确性。   二、 数据指标管理   首先我们看下数据仓库的数据流转，要确认计算出的指标正确，...

点赞评论收藏

分享

2022-05-15 00:04

上海财经大学 HRBP

字节跳动Data数据平台/数据分析招聘

# 字节跳动Data数据平台/数据分析招聘  ## 一、团队介绍  ### Data-数据平台  「Data-数据平台」，支持今日头条、抖音、西瓜、电商、教育、游戏等业务，同时支持ToB业务，提供企业技术服务。解决EB级大数据问题，数据赋能驱动业务增长，打造业界领先的数据中台，围绕大数据的全生命周期，提供生产力工具和实施方法论。  **核心优势**  1、直面EB级别的海量数据在计算、性能、效率、安全性和扩展性上的挑战，也有机会接触到广告、直播、电商、互娱等丰富的业务场景；  2、业务形态多种多样，参与实现数据中台赋能各类业务的体系化技术方案；  3、参与字节跳动的数据中台体系建设，服务公司内...

点赞评论收藏

分享

2022-04-13 14:52

数仓建设 | ODS、DWD、DWM等理论实战

本文目录： 一、数据流向 二、应用示例 三、何为数仓DW 四、为何要分层 五、数据分层 六、数据集市 七、问题总结   导读   数仓在建设过程中，对数据的组织管理上，不仅要根据业务进行纵向的主题域划分，还需要横向的数仓分层规范。本文作者围绕企业数仓分层展开分析，希望对你有帮助。    因文章太长，本文不是完结版，文末可获取完整PDF版    从事数仓相关工作的人员都知道数仓模型设计的首要工作之一就是进行模型分层，可见模型分层在模型设计过程中的重要性，确实优秀的分层设计是一个数仓项目能否建设成功的核心要素，让数据易理解和高复用是分层的核心目标。   一、数据流向   二、应用示例   三、何为...

点赞评论收藏

分享

2022-05-21 17:29

华北水利水电大学数据其它

Hive 改表结构的两个坑|避坑指南

Hive 在大数据中可能是数据工程师使用的最多的组件，常见的数据仓库一般都是基于 Hive 搭建的，在使用 Hive 时候，遇到了两个奇怪的现象，今天给大家聊一下，以后遇到此类问题知道如何避坑！   坑一：改变字段类型后更新数据不成功   关于 hive 插入数据的一个小坑，今天插入一个表中数据，插入时写的是常数，比如 0.01 ，表中的字段也是 DECIMAL(5,2)，按照常理插入的应该是 0.01，但是插入后查询是 0，为甚！             遇到问题，咱也不能退缩！就分析呀，看语句没问题啊！还是上网查查有没有坑友。查了一圈发现还是观望最靠谱！上 hive 官网查，呀~ 发现了原...

点赞评论收藏

分享

2021-04-16 15:35

已编辑

成都信息工程大学大数据开发工程师

美团数仓开发一二面面经

美团 - 基础研发平台   一面    1. 自我介绍;   2. 项目介绍, 围绕项目考察了很多数仓方面知识   数据接入采用的方式, 有哪些数据接入方式; 有非结构化数据的加载嘛? 每天的数据量有多大;    增量数据的拉入技术环节是怎样, 对业务的影响, 增量数据的判断, 历史数据的存储;    维度数据是怎么处理? 明细层的设计模型, 采用了什么方法建模, 怎么搭建主题域的? 事实表和维度表是怎么去拆分的, 依据是什么?   事实表和业务系统是怎么映射的;    事实表分类有哪些? 事实表分类方式? (交易事实表, 周期快照事实表, 累积快照事实表)    事务事实表创建过程中核心要注...

wxcheng：数据倾斜那题楼主怎么答的呢

点赞评论收藏

分享

2022-04-19 11:03

河北建筑工程学院大数据开发工程师

数仓面试求教

面试数仓岗位问题如下：1.mapreduce中为何要hash partition分区2.mapreduce中为何使用快拍和归并排序3.两张表，译过来就是a为维表(不小)，b为事实表，两表关联，如何优化？问后说关联是出现数据倾斜。数仓只知道mapreduce的原理流程，具体环节没有深究，大佬有能给解答的吗

牛客54146065...：1. HashPartitioner 是默认的分区器，也可以用别的，比如TotalOrderPartitioner，也可以自定义开发。第一个问题，先回答为什么要分区就是数据shuffle过程中的一种打散策略。 Hash散列化是最容易想到的。 2. 在MR当中会用到多次排序过程特别是map输出到内存再溢写到磁盘时会产生大量的临时文件，这些小文件是不能直接交给Reducer处理的，而要进行一个合并的过程，这个过程是带着map-key进行操作的所以要用到归并排序。在环形缓冲的内存区使用快排，原因我还没想到。（https://blog.csdn.net/u010737756/article/details/114198358 ） 3. 先定义和回顾数据倾斜的概念，然后再思考join这个过程的实现（reduce把相同key分组做笛卡尔积）如果大表小表的差异巨大，表现为小表的数据量比较少但key却比较集中，导致分发到某一个或几个reduce上的数据比其他reduce多很多，易造成数据倾斜。常常会采用mapjoin 优化这类问题

点赞评论收藏

分享

2022-12-07 21:09

已编辑

门头沟学院项目经理

大数据面试题：用 SQL 查询每个用户最大连续登录日期

前言： “用 SQL 查询每个用户最大连续登录日期？” 这道题是数据开发面试经常问到的题目，因为其比较考验候选人的 SQL 能力，今天就来简单讲讲其思路。  样例数据如下 login_log：    user_id login_time     1 2022-11-28   1 2022-12-01   1 2022-12-02   1 2022-12-03   2 2022-12-01   2 2022-12-04    (1) 先开窗，排个序 不了解或不熟悉窗口函数的同学可以点击阅读：通俗易懂：窗口函数 | 全是案例 select user_id, login_time, row_numb...

大数据从入门到放弃

点赞评论收藏

分享

2023-08-24 19:38

网易_数据开发工程师

同学提问:语兴，能不能讲讲这个数据产品呀

数据产品：为业务或技术提供可视化内容展示或开发平台设计，数据产品分为2大类，即B端和C端两种：tob则是对内支持（公司内部数据平台支持）也有对外支持（云产品服务），更偏向开发者及分析师，与数据平台开发形成配合完成数据平台规划建设。toc则是为用户提供查看高价值数据渠道的平台，C端设计产品时要从使用数据者的角度出发辅助用户分析，使得用户能够进行自助决策。c端注重业务，b端注重数据建设流程面向开发的，看自己目前现状更适合哪些。市面上b端吃香 尤其是指标中心、数据治理中心的数据产品很火，建议往这个方面看看。b端也分很多的 网易这边 数据产品是按照功能分的，例如数据传输是一个产品、数据治理是一个产品、标签/指标平台是一个产品，像数仓一样也有很多分支其实数仓更好转数据产品，因为数仓深知用户痛点，用多了数据平台也具备了自己对平台功能的理解，同时互联网高p数据负责人，挺多是数据产品，比如快手、红书、网易数据负责人都是数据产品，还都是数仓出身。

点赞评论收藏

分享

2023-08-17 08:58

网易_数据开发工程师

日常取数需求如何写成项目

问题发生背景：5月中旬以及6月中旬，业务方（运营）直接找到我们组同学来取数据，由于5月中旬那会没制定规则流程所以我们组同学接了这个取数需求并交付，6月中旬业务方（运营）又来找到我们组同学取数据，组内同学和bi一起做了评估，并制定一下流程（流程为需求由业务方提到bi侧进行评审后 交给数据开发同学开发，原因也是bi侧同学对业务需求更专业些），今早业务方（运营）第三次取数，由于bi那边存在审核流程，这次直接跳过bi找到产品，然后带着产品直接找我来了，给我整不会了，通知完我后才把需求告诉bi，最后闹的都不愉快。但需求都是同一批需求，但业务方不知道自己到底要关注什么，所以在陆续的提，但对于数仓来说这种活没任何价值。思考：数仓要做可以产出的价值的项目，最起码支持了数据看板 分析报告能被看到，bi也会给数仓去看，业务方拿着你取的数据自己汇报去了，跟数仓没任何关系。

点赞评论收藏

分享

2020-12-15 10:30

已编辑

北京航空航天大学算法工程师

字节跳动数据仓库实习面经

如题，坐标中兴大厦旁边的985   后来问了一下，面的应该是懂车帝   1. 首先问了一下项目，我是有一个hadoop的项目，问了项目的整体方案   2. 问了一下hdfs的基础，数据存入hdfs的过程，我答的namenode找到datanode   3. 三个sql的题，答的一般     第一题：2个字段，考试时间，是否通过。要求给出每个时间的通过数和失败数，大概就是一个group by   第二题：进行数据拆分     1   1，2，3     2   4，5，6     拆成     1   1     1   2     1   3     2   4     2   5     2...

点赞评论收藏

分享

2020-09-01 16:49

已编辑

门头沟学院大数据开发工程师

携程数据仓库工程师一面面经

八月15号做了笔试题，当时好像只做出了一道题，笔试结束了心态就不好了，然后就没有管，8.28接到了面试通知。 一面 数仓分层，每一层的含义。 数仓建模 元数据 SQL:面试官首先问了一个语句，我没见过。然后问了另一道题，问我的想法，其实我没想出来，面试官提醒之后，回答上来了。 MySQL分库分表 表的删除方式以及它们之间的区别 然后就开始了 我听不到面试官的声音----＞面试官听不到我的声音 的设备调试期 职业规划 对数据研发的理解 反问 面试官人很好，全程带笑。  感觉回答得不好，还是期待一个二面吧。

点赞评论收藏

分享

2021-04-14 11:59

已编辑

The University of Sheffield 算法工程师

shopee新加坡数据仓库（被拒）

笔试3/26：   两道编程题，第一道搜索，第二道合并两个有序链表（输入输出实际都是字符串）。      二面4/7：   面试官向我介绍数据仓库是做什么的。   介绍项目。   问了有关Hadoop的问题（我不会），在知道我用过spark以后让我介绍spark的框架。   数据库相关：left join和right join的区别，索引和主键的区别。   哈希表相关：哈希表的访问修改遍历时间复杂度，怎么储存，怎么实现（答了线性映射，取模，如果冲突采用拉链法），问我如果链表过长怎么办（我认为是映射方法不好，选用更大的质数作为模）   Linux里权限分配644是什么意思。   两道编程题：  ...

点赞评论收藏

分享

2022-04-10 00:21

杭州电子科技大学大数据开发工程师

大数据开发和数仓面试

是不是大数据开发和数仓的面试难度和范围不大一样呀，感觉数开问的就挺杂难度较大，而数仓就主要问一些大数据框架和数仓项目之类的，数开还要写算法题，数仓都是SQL和算法选

我有4条狗：同样的，写了N多sql了，数仓

点赞评论收藏

分享

玩命加载中

创作者周榜

更多

热议话题

更多

牛客网
牛客网在线编程
牛客网题解
牛客企业服务