2020-03-03 13:45 门头沟学院

关注

11111

青岛商圈相关的数据提取工作进展如下所示。若需接手工作，可参考工作进展中列示的程序所在位置、重点数据表以及核心代码。
Part 1前期数据提取（负责人：周柯君）：

分月的数据统计
工作内容：青岛每个商圈按照变量表按周去重后201811、201901、201905、201908这个月分别统计商圈信息。
程序位置：
21 zeppelin上的zhoukejun541_ind.qingdao10_01
39 zeppelin上的zhoukejun541_ind.qingdao10_05
80 zeppelin上的zhoukejun541_ind.qingdao10
69 zeppelin上的zhoukejun541_ind.qingdao10_11
重点数据表及代码:
(1) 提取青岛用户数据从表: ,给定经纬度和时间
(2) 匹配商圈，按照周去重。按照经纬度绝对值相差0.01进行匹配，经纬度相差1km大约对应0.01的经纬度。

(3) 利用gbd_360_safe.flag_all_client_party_info_p,gbd_360_safe.tag_shr_v2_client_party_info_p 这两个表提取所有所需的变量，利用party_id进行拼表

分月数据处理生成excel
背景：生成了单月的sql表后，需要进行数据处理等。因为四个月的数据过大，不能将四个表合起来一起跑，会出现内存爆掉的情况，所以对四个表单独处理
工作内容：将分月数据做描述性统计与变量增改并生成excel
程序位置：
Zeppelin 39 bank_customer05_nodropduplicate
重点数据表及代码:
（1）stat函数是为了按照商圈进行groupby统计每个商圈里的人流特征的，返回的是一个dataframe。Fun函数是为了变量的重新定义并写入excel表中。
（2）有任何新加的变量定义规则写在fun函数中，可以直接在excel后面加，不需要重跑。每个重跑比较慢。
本地中python的部分
需要得到4个月合起来的数据，在本地上跑。
详细的逻辑在jupyter里面。jupyter文件名：combine_4months

Part 2 后续数据补充（负责人：连中豪）:

青岛各商圈人流量统计
工作内容：
a) 青岛每个商圈4个月分别的客流量及加总，客流量是根据device id按周去重的
b) 青岛每个商圈4个月总体客流量，客流量根据device id，4个月整体去重
程序位置：21/39/69三个zeppelin上的sq_count_1224
重点数据表及代码：为了按周进行去重，4个月内每周都生成了子数据表，如zhoukejun541_ind.sq_count_190819,日期为每周的第一天，在周数据的基础上生成了月数据，如zhoukejun541_ind.sq_count_1908
统计单周数据的代码

生成月数据

青岛各商圈基本信息 – 信息补充
工作内容：
在前期生成的大量tab基础上补充/更新了两个内容
c) 对valid_product_count_new进行了分段
d) 使用了更新过的源数据，更新了large_capital_require_amt，small_capital_need_amt两个tab
程序位置：39 zeppelin上的bank_customer05_nodropduplicate
青岛各商圈竞对银行统计
工作内容：统计了平安银行8个竞争对手银行在各商圈内的app安装情况
程序位置：21 zeppelin上的sq_count_1224
重点数据表及代码：生成了中间表zhoukejun541_ind.sq_count_customer_w，里面记录了device id，对应的商圈id，时间，是否为优质客群的标注；竞对银行的数据存在gbd_dm_custcenter_mask.zdf_qdlm_qd2中；最后生成的结果数据表为zhoukejun541_ind.sq_count_competitor
核心语句代码

青岛各商圈优质客群分类统计 – 数据更正
工作内容：之前的工作中优质客群分类标准存在错误。之前误将20-25岁也纳入到优质客群标准中；同时由于用排除法来筛选高学历人群，误将标注为“未知”的客户也纳入到高学历人群中，导致优质客群比例偏高。已在1.7号的邮件中更正完成。
程序位置：21/39/69三个zeppelin上的bank_customer05_nodropduplicate
重点数据表及代码：源数据为zhoukejun541_ind.qingdao10_01等4个月的数据表
更正后的优质客群筛选语句

青岛各商圈内平安网点数和合作商家数
工作内容：
e) 从银行内部数据中收集了合作商家信息，共筛选出109家位于青岛的合作商家
f) 从高德地图上爬取了平安银行网点信息，筛选出23家位于青岛的平安银行；该数据与平安银行官网上的网点分布数是一致的
g) 将银行网点、合作商家通过经纬度与商圈匹配，109家合作商家中匹配到了69家，23家银行网店中匹配上了21家
程序位置：由于涉及到爬虫且数据量小，该需求的代码在我电脑本地运行，若有需要请问我索要
青岛各商圈半年发卡优质/非优质客群统计
工作内容：将商圈的范围分别划分为1km/2km的圆形（为了与客流量校准数据匹配。之前的统计都以方形划分商圈），并在此基础上统计各商圈内发卡对象中优质/非优质客群数量
程序位置：21/39两个zeppelin上的bank_customer05_nodropduplicate，主要在21上
重点数据表及代码：源数据:zhoukejun541_ind.card_issue_03（有发卡对象经纬度信息）,zhoukejun541_ind.card_issue_customer（有发卡对象优质、非优质标注），这两个数据表与商圈表inner join，再根据商圈group by
由于商圈的划分方式同之前有出入，难以在sql上完成，因而将源数据用toPandas转化到python里进行商圈距离匹配，核心python函数为find_sq, closest_sq两个，pyspark的代码也在21zeppelin的bank_customer05_nodropduplicate中

全部评论

推荐最新楼层

11-13 10:41

哈尔滨工程大学 Java

👋个人背景：双非本，211硕👏offer1：顺丰科技 20k * 12 + 6w 不知道年终能拿多少💯offer2：上海银行金融科技 第一年16k * 12 总包22，第二年开始绩效占大头，答疑会说是第三年平均能到31w，感觉上下限差不少。在上海这能久居吗？

点赞评论收藏

分享

11-13 16:04

华东师范大学前端工程师

4399前端一面

1、自我介绍2、目前是不是转正实习3、vue3比vue24、v-show和v-if5、v-show和v-if优先级6、v-for中为什么不推荐使用v-if7、v-for中key的作用8、dom中也有个key，用过没，这个key是什么作用9、场景题：系统嵌套系统10、场景题：不修改被嵌套的系统巴拉巴拉11、ai coding相关12、职业规划13、前端理解14、最近在学什么好了又发现自己一个短板：场景题

点赞评论收藏

分享

11-03 16:42

井冈山大学 Java

大家秋招压力很大一般怎么调节呀

有没有什么释放压力的方法呀  

黑皮白袜臭脚体育生：妈妈

我的秋招日记

点赞评论收藏

分享

11-14 11:01

传音控股_技术运维工程师(准入职员工)

传音内推，传音内推码

我投递的是供应链的岗位，有需求的宝宝可以参考一下～ 一开始投递简历后，会有一个线上**，大家可以去一些软件刷刷题再去做（因为这个题库有时候真的有点怪怪的），通过后经过漫长的审批，有些岗位会有专业测试（研发岗之类的），然后又是漫长的审批，你就会进入面试阶段啦！ 首先是11月中旬的时候hr会打一个电话面试： 时间不一定，早中晚都有可能，当时我以为是骚扰电话给挂了，幸好hr小姐姐打了第二个，听说有人挂了之后就没有接到第二个电话了，大家一定要注意（广东）种地方的来电！！！说不定就是你的面试通知！！！ 电话面的问题： 1.对传音的了解（可以多搜索传音相关的资料了解） 2.对薪资的期望（看个人需求） 3....

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 我的职场社死时刻 #

6518次浏览 82人参与

# 秋招吐槽大会 #

34249次浏览 314人参与

# 小红书开奖了 #

11595次浏览 81人参与

# 职场中那些令人叹为观止的八卦 #

6730次浏览 94人参与

# 你找工作想离家近 or 离家远？ #

5712次浏览 91人参与

# 月薪多少能在一线城市生存 #

90123次浏览 616人参与

# 腾讯音乐秋招 #

420586次浏览 4729人参与

# 那些年，我收到的‘奇葩’回复 #

3559次浏览 39人参与

# 你秋招最后悔的选择 #

5791次浏览 56人参与

# 秋招你经历过哪些无语的事 #

4183次浏览 54人参与

# XX请雇我工作 #

5157次浏览 64人参与

# 哪些公司开始补录了 #

5630次浏览 82人参与

# 中科曙光工作体验 #

4789次浏览 23人参与

# 你父母给过你哪些不靠谱的职场建议？ #

6299次浏览 88人参与

# 虾皮开奖 #

50020次浏览 243人参与

# 假如你的老板掉河里，你的工作能为他做什么 #

39312次浏览 401人参与

# 京东工作体验 #

21506次浏览 121人参与

# 职场中对你有帮助的书 #

22879次浏览 213人参与

# 如何拒绝/反向PUA #

81884次浏览 367人参与

# 你最满意的offer薪资是哪家公司？ #

51675次浏览 260人参与

# 聊聊你的职场新体验 #

294050次浏览 1808人参与

# 交通银行工作体验 #

20520次浏览 68人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务