【风控数据】 通讯数据类型及应用
前言
随着互联网的不断发展, 目前人们之间的信息交互主要通过电话、微信等, 其中通讯录和通话记录是各种场景常常使用的数据.目前国家对于个人数据采集管控较为严格, 如需利用该数据需要做好合规部分.
通讯数据基本情况
针对通讯记录采用每个人较为常见的数据格式类型:
- 通讯录:
- 用户电话
- 通讯录电话
- 通讯录备注
- 通讯录采集时间
- 通话记录:
- 用户电话
- 通讯电话
- 通讯方式(主叫/被叫)
- 通话开始时间
- 通话持续时间
- 通话记录采集时间
如何利用通讯数据
通讯录
针对单独使用通讯录的手段: 利用规则匹配/语言模型分析通讯录备注, 从而获取更多方面的信息
- 亲属关系标签: 利用风控常用的正则匹配方法
- 通讯录姓名: 利用 NLP 针对备注进行姓名提取
通话记录
针对单独使用通话记录的手段: 利用通话记录分析用户的亲密关系, 从而获取标签情况
- 首先构建用户与联系人的亲密程度
\[ intimacy_{uv} = \frac{0.55 \times duration_{u\; call\; v} + 0.45 \times duration_{v\; call\; u}}{call_cnt} \]
针对亲密程度进行排序, 提取前 \(N\) 个联系人(\(N = 20\) 其根据150定律中的精确交往人数)
利用排序亲密程度进行离散化, 并乘以标签情况从而获得用户标签
\[ label_{u} = \sum_{i = 1, \cdots, 20} C_i \times V_i \]
- \(C_i\): 亲密度排序结果, 排序第一为 \(20\), 通过离散化的方法减弱亲密度异常的影响
- \(V_i\): 联系人标签情况
此时可以获得该用户通过亲密联系人获得的标签
聚合分析
利用通讯录以及外部数据可以为联系人如下类型标签
- 一元
- 特定业务标签(黑产、欺诈等)
- 电话标注数据(外卖、催收等)
- ...
- 二元
- 亲属关系类(父母、兄弟等)
- ...
利用通话记录构建连通图(节点为电话号码, 此为同构图), 可通过标签传播等图算法进行一定风控业务的应用
参考资料
【风控数据】 通讯数据类型及应用
https://www.windism.cn/3797270078.html