【风控数据】 通讯数据类型及应用

前言

随着互联网的不断发展, 目前人们之间的信息交互主要通过电话、微信等, 其中通讯录和通话记录是各种场景常常使用的数据.目前国家对于个人数据采集管控较为严格, 如需利用该数据需要做好合规部分.

通讯数据基本情况

针对通讯记录采用每个人较为常见的数据格式类型:

  • 通讯录:
    • 用户电话
    • 通讯录电话
    • 通讯录备注
    • 通讯录采集时间
  • 通话记录:
    • 用户电话
    • 通讯电话
    • 通讯方式(主叫/被叫)
    • 通话开始时间
    • 通话持续时间
    • 通话记录采集时间

如何利用通讯数据

通讯录

针对单独使用通讯录的手段: 利用规则匹配/语言模型分析通讯录备注, 从而获取更多方面的信息

  • 亲属关系标签: 利用风控常用的正则匹配方法
  • 通讯录姓名: 利用 NLP 针对备注进行姓名提取

通话记录

针对单独使用通话记录的手段: 利用通话记录分析用户的亲密关系, 从而获取标签情况

  1. 首先构建用户与联系人的亲密程度

\[ intimacy_{uv} = \frac{0.55 \times duration_{u\; call\; v} + 0.45 \times duration_{v\; call\; u}}{call_cnt} \]

  1. 针对亲密程度进行排序, 提取前 \(N\) 个联系人(\(N = 20\) 其根据150定律中的精确交往人数)

  2. 利用排序亲密程度进行离散化, 并乘以标签情况从而获得用户标签

\[ label_{u} = \sum_{i = 1, \cdots, 20} C_i \times V_i \]

  • \(C_i\): 亲密度排序结果, 排序第一为 \(20\), 通过离散化的方法减弱亲密度异常的影响
  • \(V_i\): 联系人标签情况

此时可以获得该用户通过亲密联系人获得的标签

聚合分析

利用通讯录以及外部数据可以为联系人如下类型标签

  • 一元
    • 特定业务标签(黑产、欺诈等)
    • 电话标注数据(外卖、催收等)
    • ...
  • 二元
    • 亲属关系类(父母、兄弟等)
    • ...

利用通话记录构建连通图(节点为电话号码, 此为同构图), 可通过标签传播等图算法进行一定风控业务的应用

参考资料


【风控数据】 通讯数据类型及应用
https://www.windism.cn/3797270078.html
作者
windism
发布于
2021年5月24日
许可协议