实时数据质量异常排查思路

群友提问:离线小时看板数据和实时看板数据对不上该怎么排查。

首先定位问题中架构为HSAP OR LAMBDA。

指标口径

先看指标口径是否准确,保障实时和离线指标口径一致,以及线上版本,同时看代码版本改动记录如指标口径及数据源,如果都没问题则继续向下排查。

消费情况

看dwd清洗加工代码中是否有加filter处理,以及多表明细join情况是否有空,如果未做处理同时未有空值,则看 flink ui 查看dwd/ods数据消费情况,如数据反压则按照反压排查思路,如数据质量还是有问题(例如正常指标每日gmv在100w附近,今日变20w),则去回查mysql/kafka源头情况,同时保障数据来源一致。

重新拉取消费和离线比对

最后则是发布任务启动任务后,重置消费点位(例如今天9月19日),今天数据离线肯定是没有的,那我们就重拉9.17到现在的点位,1看明细条数和离线能否比对上,2看指标和离线比对如何(这里可以先把数据落OLAP 存一份),再将OLAP中数据GROUP BY 到小时,去看实时落库每小时指标数据,再写离线sql看离线每小时指标数据(例如离线 9.17日 13点 gmv10w,14点20w),如可以对齐或者差距在3%以内都可以正常发布。

#数据人offer决赛圈怎么选##数据人的面试交流地##数据分析##数据开发##大数据#
全部评论

相关推荐

07-08 13:48
门头沟学院 C++
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
07-10 11:55
点赞 评论 收藏
分享
06-27 12:54
已编辑
门头沟学院 Java
累了,讲讲我的大学经历吧,目前在家待业。我是一个二本院校软件工程专业。最开始选专业是觉得计算机感兴趣,所以选择了他。本人学习计算机是从大二暑假结束开始的,也就是大三开始。当时每天学习,我个人认为Java以及是我生活的一部分了,就这样持续学习了一年半,来到了大四上学期末,大概是在12月中旬,我终于找的到了一家上海中厂的实习,但我发现实习生的工作很枯燥,公司分配的活也不多,大多时间也是自己在自学。就这样我秋招末才找到实习。时间来到了3月中旬,公司说我可以转正,但是转正工资只有7000,不过很稳定,不加班,双休,因为要回学校参加答辩了,同时当时也是心高气傲,认为可以找到更好的,所以放弃了转正机会,回学校准备论文。准备论文期间就也没有投递简历。然后时间来到了5月中旬,这时春招基本也结束了,然后我开始投递简历,期间只是约到了几家下场面试。工资也只有6-7k,到现在我不知道该怎么办了。已经没有当初学习的心劲了,好累呀,但是又不知道该干什么去。在家就是打游戏,boss简历投一投。每天日重一次。26秋招都说是针对26届的人,25怎么办。我好绝望。要不要参加考公、考研、央国企这些的。有没有大佬可以帮帮我。为什么感觉别人找工作都是顺其自然的事情,我感觉自己每一步都在艰难追赶。八股文背了又忘背了又忘,我每次都花很长时间去理解他,可是现在感觉八股、项目都忘完了。真的已经没有力气再去学习了。图片是我的简历,有没有大哥可以指正一下,或者说我应该走哪条路,有点不想在找工作了。
码客明:太累了就休息一下兄弟,人生不会完蛋的
如果实习可以转正,你会不...
点赞 评论 收藏
分享
评论
1
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务