11111

青岛商圈相关的数据提取工作进展如下所示。若需接手工作,可参考工作进展中列示的程序所在位置、重点数据表以及核心代码。
Part 1前期数据提取(负责人:周柯君):

  1. 分月的数据统计
    工作内容:青岛每个商圈按照变量表按周去重后201811、201901、201905、201908这个月分别统计商圈信息。
    程序位置:
    21 zeppelin上的zhoukejun541_ind.qingdao10_01
    39 zeppelin上的zhoukejun541_ind.qingdao10_05
    80 zeppelin上的zhoukejun541_ind.qingdao10
    69 zeppelin上的zhoukejun541_ind.qingdao10_11
    重点数据表及代码:
    (1) 提取青岛用户数据从表: ,给定经纬度和时间
    (2) 匹配商圈,按照周去重。按照经纬度绝对值相差0.01进行匹配,经纬度相差1km大约对应0.01的经纬度。

(3) 利用gbd_360_safe.flag_all_client_party_info_p,gbd_360_safe.tag_shr_v2_client_party_info_p 这两个表提取所有所需的变量,利用party_id进行拼表

  1. 分月数据处理生成excel
    背景:生成了单月的sql表后,需要进行数据处理等。因为四个月的数据过大,不能将四个表合起来一起跑,会出现内存爆掉的情况,所以对四个表单独处理
    工作内容:将分月数据做描述性统计与变量增改并生成excel
    程序位置:
    Zeppelin 39 bank_customer05_nodropduplicate
    重点数据表及代码:
    (1)stat函数是为了按照商圈进行groupby统计每个商圈里的人流特征的,返回的是一个dataframe。Fun函数是为了变量的重新定义并写入excel表中。
    (2)有任何新加的变量定义规则写在fun函数中,可以直接在excel后面加,不需要重跑。每个重跑比较慢。

  2. 本地中python的部分
    需要得到4个月合起来的数据,在本地上跑。
    详细的逻辑在jupyter里面。jupyter文件名:combine_4months

Part 2 后续数据补充(负责人:连中豪):

  1. 青岛各商圈人流量统计
    工作内容:
    a) 青岛每个商圈4个月分别的客流量及加总,客流量是根据device id按周去重的
    b) 青岛每个商圈4个月总体客流量,客流量根据device id,4个月整体去重
    程序位置:21/39/69三个zeppelin上的sq_count_1224
    重点数据表及代码:为了按周进行去重,4个月内每周都生成了子数据表,如zhoukejun541_ind.sq_count_190819,日期为每周的第一天,在周数据的基础上生成了月数据,如zhoukejun541_ind.sq_count_1908
    统计单周数据的代码

生成月数据

  1. 青岛各商圈基本信息 – 信息补充
    工作内容:
    在前期生成的大量tab基础上补充/更新了两个内容
    c) 对valid_product_count_new进行了分段
    d) 使用了更新过的源数据,更新了large_capital_require_amt,small_capital_need_amt两个tab
    程序位置:39 zeppelin上的bank_customer05_nodropduplicate

  2. 青岛各商圈竞对银行统计
    工作内容:统计了平安银行8个竞争对手银行在各商圈内的app安装情况
    程序位置:21 zeppelin上的sq_count_1224
    重点数据表及代码:生成了中间表zhoukejun541_ind.sq_count_customer_w,里面记录了device id,对应的商圈id,时间,是否为优质客群的标注;竞对银行的数据存在gbd_dm_custcenter_mask.zdf_qdlm_qd2中;最后生成的结果数据表为zhoukejun541_ind.sq_count_competitor
    核心语句代码

  1. 青岛各商圈优质客群分类统计 – 数据更正
    工作内容:之前的工作中优质客群分类标准存在错误。之前误将20-25岁也纳入到优质客群标准中;同时由于用排除法来筛选高学历人群,误将标注为“未知”的客户也纳入到高学历人群中,导致优质客群比例偏高。已在1.7号的邮件中更正完成。
    程序位置:21/39/69三个zeppelin上的bank_customer05_nodropduplicate
    重点数据表及代码:源数据为zhoukejun541_ind.qingdao10_01等4个月的数据表
    更正后的优质客群筛选语句
  1. 青岛各商圈内平安网点数和合作商家数
    工作内容:
    e) 从银行内部数据中收集了合作商家信息,共筛选出109家位于青岛的合作商家
    f) 从高德地图上爬取了平安银行网点信息,筛选出23家位于青岛的平安银行;该数据与平安银行官网上的网点分布数是一致的
    g) 将银行网点、合作商家通过经纬度与商圈匹配,109家合作商家中匹配到了69家,23家银行网店中匹配上了21家
    程序位置:由于涉及到爬虫且数据量小,该需求的代码在我电脑本地运行,若有需要请问我索要

  2. 青岛各商圈半年发卡优质/非优质客群统计
    工作内容:将商圈的范围分别划分为1km/2km的圆形(为了与客流量校准数据匹配。之前的统计都以方形划分商圈),并在此基础上统计各商圈内发卡对象中优质/非优质客群数量
    程序位置:21/39两个zeppelin上的bank_customer05_nodropduplicate,主要在21上
    重点数据表及代码:源数据:zhoukejun541_ind.card_issue_03(有发卡对象经纬度信息),zhoukejun541_ind.card_issue_customer(有发卡对象优质、非优质标注),这两个数据表与商圈表inner join,再根据商圈group by
    由于商圈的划分方式同之前有出入,难以在sql上完成,因而将源数据用toPandas转化到python里进行商圈距离匹配,核心python函数为find_sq, closest_sq两个,pyspark的代码也在21zeppelin的bank_customer05_nodropduplicate中

全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务