指标体系及指标平台介绍
在写本期内容之前,语兴应网易 easy data 以及 aloudata 的邀请,同时基于后台同学对指标体系建设的反馈要求,我们在这节课中将从指标体系建设延伸至指标平台建设或选型,为大家进行详细介绍。
1.指标介绍
1.1 什么是指标
指标是用来衡量、评估和描述数据的特征、性能或关系的度量标准,换句话说,指标是对不同维度(包括粒度)进行事务的描述,同时指标在生活中也与大家息息相关,就拿减肥这件事来说,粒度到用户,用户最近30天减肥斤数即指标,同时亦可通过指标来量化事实的好坏,来进行评判,例如某用户最近30天减肥斤数如果=0斤,平均线为5斤,即为指标不达标。
1.2 指标分类
指标包括原子指标(概念指标、虚空指标)、派生指标(即dws、ads加工指标)、复合指标(应用侧(放到看板加工)或ads多指标组合呈现内容,建议把复合指标放到应用侧,更方便去组合),通过指标能够去全面衡量数据信息,这里的指标一定是整数和小数类型,要和标签有区分。
(1)原子指标:原子指标是指基于业务过程指标描述,像是一种指标概念,虚空指标,如交易笔数、交易金额、交易用户数,注册用户数等。
(2)派生指标:基于原子指标、时间周期、维度,圈定业务统计范围并分析获取业务统计指标的数值,派生指标=原子指标+统计周期(30天、60天、截止至今)+维度的组合(统计粒度、维度(可省略))。
例如派生指标:最近30天杭州地区用户购物下单数=用户购物下单数(原子指标)+杭州地区(维度)+最近30天。(周期)
(3)复合指标:指建立在派生指标之上,通过一定运算规则形成的计算指标(分子/分母),通常以率出现。
例如:最近30天销售部门员工离职率=最近30天销售部门员工离职数/最近30天销售部门员工数。
2.指标体系建设
2.1 指标体系建设的目的
与下游(风控策略/数据分析/数据产品/算法)达成合作,保障指标建设时口径的统一,完成指标覆盖,提升复用性,通过可视化方式提升查询效率。
2.2 没有指标体系的问题
(1)指标难找到:数据表较多,找指标如大海捞针如果只是用元数据去搜指标仍具有难度。
(2)指标无复用:由于没指标中心,开发者不清楚指标之前是否开发,导致指标重复建设,最终出现烟囱数据表。
(3)指标口径难统一:开发的指标由于指标口径不一致,不同部门的业务方理解不一致导致指标出现二义性出现。
(4)指标杂乱难管理:未划分指标域,指标杂乱无章野蛮生长,同时指标名称无法统一,较难管理。
同样指标中心带来的问题点在于:开发周期更慢了,维护指标太花费时间,开发都没空还怎么维护指标(不过也可以定期来,例如一个宽表开发完后进行整体维护,或者某个项目完成后去维护,再或者2周内花4小时工时来维护一次)
2.3 指标建设
2.3.1 指标梳理办法
当前大多数公司指标早已成型(如果是新公司/新业务在做数仓,可忽略这个点),因此在做指标体系之前需要先梳理现有的指标:
第一期可以优先找出核心指标,既然没有头绪,我们从能看到的地方去找
(1)核心指标看板指标(top20)。
(2)梳理出常用top看板/ads数据表中重叠指标(需要借助元数据或者自己扒代码或查看元数据),这里一定是同域/跨域,同颗粒度的指标。
(3)现有指标可按照业务使用频次(可用元数据去看)。
第二期可以根据常用的域把业务频率使用高的指标补充进指标中心。
指标梳理模板
aloudata指标基础信息梳理(测试环境)
这里建议除了梳理指标还需要梳理清楚数据源(hive、star rocks等),还需要确认指标种类(原子、派生、复合),例如原子没有周期所以原子指标在周期那一列可以为null,及所对应的数据表,并在梳理指标后进行排期,可按照指标域来排期梳理,和业务方再去确认指标口径。
2.3.2 指标梳理常遇到的坑(欢迎大家来补充)
难点1:每个业务方对名称一样的指标他理解方法不一样,所以只能采用再新建一个指标方式去维护,例子如下:
指标名称 | 指标使用者 | 指标业务口径 | 新指标名称 |
最近30天销售部门员工离职数 | 数据分析 | 最近30天一级部门为销售的员工离职数 | 最近30天销售部门员工离职数 |
最近30天销售部门员工离职数 | 产品 | 最近30天一级部门为销售且除去xx产品部门的员工离职数 | 产品_最近30天销售部门且除去xx产品部门员工离职数 |
难点2:很多指标名称写的很模糊,我们还是以之前指标为例子去讲,例如杭州地区用户下单数这指标,这里没有提到的点为指标周期,正常来说每个指标都应该有周期,但这里的指标他可能用于看板做周期展示所以没确定下来指标周期,所以对于这种指标可先按照最近1天来进行命名确认(最近1天杭州地区用户下单数)。
2.3.3 指标域划分
这里的指标域是指从业务角度划分使用的域,如果说暂时梳理不出来指标域,可以用主题域去替代指标域,但在制定后一定要拉下游业务开会对齐,例如一级域营销活动域(通常运营、数分在用)、风控域(风控策略在用)、算法域(算法开发在用)等,二级域可划分(风控域-催收风险域、准入风险域),可参考如图的的样式,如没有指标平台可先采用excel方式整理,如考虑做指标数据平台可考虑这个板块。
excel整理方法如下:
指标使用者 | 一级指标域 | 一级指标域命名(缩写) | 二级指标域 | 二级指标域命名(缩写) |
数据分析 | ||||
风控策略 | 风控 | risk | 催收风险 | cr(Collection risk) |
产品 | ||||
运营 |
平台建设考虑点如下:
网易easy data指标平台指标域划分(测试环境)
aloudata指标平台指标域划分(测试环境)
2.3.4 指标维度梳理
在确定完指标域之后,可对指标维度进行全面整理(之前有整理过核心/全盘指标),因此可以对当前使用过的维度进行建设维护(如新业务可于业务方沟通确认后再制定核心维度),如没有指标平台可先采用excel方式整理,同时网易和aloudata建设方法也不一样。
excel整理方法如下(2种皆可,看适配性):
维度名称 | 维度枚举 | 枚举code | 维度描述 |
地区-省份 | 北京、上海、浙江 | bj、sh、zj | 地区-省信息描述 |
维度名称 | 维度一级分类 | 维度二级分类 | 维度三级分类 | 维度描述 | 维度版本 | 创建时间 | 修改时间 |
省份 | 地区 | null | null | 地区-省信息描述 | v1 | 2024-07-07 10:21:13 | null |
市 | 地区 | 省份 | null | 地区-省信息描述 | v1.1 | 2024-07-06 10:22:12 | 2024-07-07 10:22:12 |
网易easy data指标平台维度划分(测试环境)
aloudata指标平台维度创建(测试环境)
2.3.5 指标周期梳理
和梳理维度一样在确定完指标域之后,可对指标周期进行全面整理(之前有整理过核心/全盘指标),如没有指标平台可先采用excel方式整理,同时网易和aloudata建设方法也不一样。
周期名称 | 周期code | 周期描述 |
最近30天 | 30d | 最近30天 |
网易easy data指标平台周期划分(测试环境)
aloudata指标平台周期划分(测试环境)
2.3.6 指标命名
在梳理完整体指标后可参考如下命名方式,更快去治理线上指标(说白了就是改字段名补comment),但要切记改动字段需让下游提前知会,并做排期修改如贸然去做很容易造成线上事故,例如ads表直接对接报表,引用都是原来的字段名,昨天突然改成新的了,但下游不清楚,第二天看板就有问题。
但也会有一些困难阻挠,例如我改字段名业务方不配合问题,这种就需要跟业务讲清做治理的价值(最好是讲清楚能给别人okr带来的增益,要不然业务方也不会配合的),推动去做,或者直接开展治理奖励,配合去做给益处。
指标命名规范参考:
命名模板参考 | 中文注释 | 字段类型 | 举例命名 | 举例中文注释 |
xxx(维度,可不加)_原子指标_cnt/days_周期(1d、30d(最近30天)、td(截止至今)、mtd) | xx维度_最近x天_原子指标(整数) | bigint、int | ys_user_registration_cnt_30d | 语数最近30天用户注册数 |
xxx(维度,可不加)_原子指标_amt_周期(1d、30d(最近30天)、td(截止至今)、mtd) | xx维度_最近x天_原子指标(小数) | Double、decimal | ys_user_pay_amt_30d | 语数最近30天用户支付金额 |
xxx(维度,可不加)_原子指标_cnt/amt_周期(1d、30d(最近30天)、td(截止至今)、mtd、last1(最近一次)) | xx维度_最近x天_原子指标 | Double、decimal、bigint、int | ys_user_pay_amt_last1 | 语数最近一次用户支付金额 |
3 指标平台板块建设
如上内容是对全局指标的一个整理,如果按上述内容去建指标中心还远远不够,因此接下来我们从平台角度去讲解指标平台应有的功能(突然又成了数据产品),对比下来多个平台说aloudata、网易指标平台可以说做的相对比较好(这里没捧1踩1,而是从功能还有实用性去说,更贴合业务一些),当然业内自研像快手内部指标平台也相对完善。
3.1 指标地图
指标地图做法可参考数据地图,指标地图能够提升用户搜索全局指标效率(前提是指标维护好,否则还是跟原来一样的难查),这里功能包括搜索跳转,平台热度指标top、用户收藏指标、指标域板块、指标个数,其实从语兴角度来说如果你把上述2.3内容梳理完,2.4指标地图也可以用报表工具去搭(搜索可以用筛选器代替、显示个数可以用明细展示替代、热度浏览(这个得有元数据,去看指标血缘使用情况)通过排行榜图去看,指标域也可以通过明细表去做,除了丑一点也没啥毛病,能用就行)。
网易easy data指标平台-指标地图(测试环境)
aloudata指标平台-指标地图划分(测试环境)
3.2 指标目录
指标目录通常展示指标信息情况以及指标新建情况,以及指标分类筛选(原子、派生、复合),通常是让用户通过规模化进行指标查看,语兴角度来看,其实这个板块也可以通过明细表去展示,可能这里有同学要问,指标修改我们要怎么维护呢,建议做一个共享飞书excel,我们每天通过python读取飞书excel信息把数据读到数仓里,当然这里后续数据表一定要维护好(因为这里的指标明细表是周期快照,一直维护的是新数据),有条件同学可以让后端+前端配合你去完成这个功能,新建指标的数据可以落olap也可以落mysql(这点数据落olap有点浪费)。
网易easy data指标平台-指标目录(测试环境)
aloudata指标平台-指标目录(测试环境)
3.3 新建/变更指标
这里新建指标需要考虑原子、派生、复合指标情况了,而不是随便去建,因为三者的属性不一样,包括大家在梳理指标时候一定要记得区分,同时建议大家整理清楚指标血缘,并且这里开始就没办法通过简单方法去做了,因为新建的指标需要与数据表进行关联,例如aloudata指标平台则是将数据落到star rocks中进行存放(建议用star rocks,因为ads数据表也挺大的,要加载半天),新建指标则可以直接进行指标分析,网易easy data新建指标可以和hive数据表进行绑定,但正是这样才能保障你的指标是活的,而不是为了查指标口径而去查看口径(没啥意义)。
网易easy data指标平台-新建指标(测试环境)
aloudata指标平台-新建指标(测试环境)
3.4 多指标组合查看
从业务角度来看,语兴对于这个功能还是挺满意,虽然看上去也好实现(有些同学会说不就是报表的组合嘛),是的,本质还是报表中维度还有度量的组合,但会卡报表权限,同时你做的指标很多都是定制化的,但业务不一定要看定制化的,同时对于运营同学来说还不会sql,那这个功能就比较重要了,语兴只需要给业务开数据权限即可,可以理解为标签画像组合升级版。
aloudata指标平台-多指标组合(测试环境)
3.5 指标监控
其实指标监控也能做成弱dqc(数据质量监控,不清楚同学可以看语兴b站课程),并且弱dqc也可以告警到飞书群里,所以这里的指标监控你加到dqc也行,单独做一个指标监控板块也行,现在报表也具备指标监控功能,主要还是把指标中心功能补齐(有则更好,没有的话也有替代品),从个人绩效来说这个很重要(上报来说还是挺有价值的),但从整体产品规划来说可以往后排。
网易easy data数据质量板块-dqc监控规则配置(测试环境)
aloudata指标平台-指标监控(测试环境)
3.7 权限管控
跨部门之间权限管控一直是很多数仓、数分同学遇到的通病,包括如何给企业内部划分好角色权限、如何按照看到的内容进行限制都是很多企业不知道该怎么划分的痛点,如采用最小原则使用可使用用户单独授权,走审批流,给下游整个部门开权限可以按照资源来授权,这里可以将做好的数据宽表同步到指标平台中来,形成新的数据集(语兴猜测是star rocks物化视图加速),按照物化视图来给业务开查询功能(虽然挺多企业目前也是这么做的)。
aloudata指标平台-指标权限管控(测试环境)
3.8 指标审批
难点在于数据表繁多,业务方并频繁修改指标口径,且变动中无版本记录,同时人工粗略审批再手动开通影响整体效率,甚至部分公司还没强管控规范,建议大家无论是数仓还是指标平台都可用的指标审核链路如下:
业务(运营等)发起->数据分析/数据产品(校验业务口径是否合理)->数据仓库(校验之前有没有做过这个指标,如做过则审批驳回,如没做过需要评估是否有数据源实现可能)->数据仓库/数据分析leader收口(看谁管事了)。
aloudata指标平台-指标审批(测试环境)
4.总结
相信大家在看完这篇内容后能够对接下来指标制定、梳理、属性划分、功能都能有清晰了解,并能去开展,有能力的同学可以动手做做自己在部门内部搭建一套指标体系出来,手头资源不足同学也可考虑购买网易、aloudata指标平台来建设(联系语兴即可),也欢迎大家提供提供指标建设功能和建设思路。
#产品##数据分析##数据人的面试交流地##数据人offer决赛圈怎么选##牛客创作赏金赛#