Louvain算法 简介 Louvain算法是基于模块度的社区发现算法,能够发现层次性的社区结构,其优化目标是最大化整个社区网络的模块度。其算法论文发表自2008年,原文为Fast unfolding of communities in large networks。 模块度(Modularity) 模块度是评估一个社区网络划分好坏的度量方法。 模块度的定义社区内节点之间的实际连边数与随机情况下连边数的差值。其物理 2023-01-28 Community Detection #Community Detection
【业务实战】Fraudar算法在关系网络反欺诈实战 前言 在目前黑产对抗中, 刷单、虚假关注等都是较为常见的风控场景, 本文主要讲述 Fraudar算法 在其中的原理及其思路. Fraudar 算法 Fraudar 算法是 Facebook 在 2016 中 《FRAUDAR: Bounding Graph Fraud in the Face of Camouflage》 提出针对社交虚假粉丝等场景的算法, 具有很好的工业效果. 场景刻画 针对 u 2022-04-17 业务实战 #反欺诈
【风控数据】 GPS空间索引算法之Geohash 前言 公司在对客户进行分析时, 常常会用到的数据就是 GPS 上报信息, 该数据是由 (longitude、latitude) 组成. 如果推算客户和门店的距离(推荐场景), 需要客户与多个门店进行距离计算(使用球面距离非欧式距离), 计算一定距离内的门店, 采用距离计算相对计算较大, 如何采用匹配的方式, 直接推算两者的距离差, GeoHash 应运而生. GeoHash 算法 GeoHash 2022-04-04 风控技术 #风控数据
【风控模型】用户价值刻画 RFM模型 简述 RFM 模型是衡量当前用户价值和客户潜在价值的重要工具和手段. 其名称为如下三个指标首字母的组合: R(Recency)消费近度:表示用户最近一次消费距离现在的时间。消费时间越近的客户价值越大。1年前消费过的用户肯定没有1周前消费过的用户价值大。 F(Frequency)消费频度:消费频率是指用户在统计周期内购买商品的次数,经常购买的用户也就是熟客,价值肯定比偶尔来一次的客户价值大。 M( 2022-03-21 风控技术 #风控模型
【风控模型】特征工程之缺失值及编码 什么是特征工程? 特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。 机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basica 2022-03-19 风控技术 #风控模型
【风控模型】一、探索性数据分析(EDA) 什么是EDA 探索性数据分析(Exploratory Data Analysis,EDA)主要用于数据分析过程中的探索,通过探索可以发现数据背后隐藏的 内在规律和联系,挖掘出数据中出现 异常情况 的原因。 EDA 总览 探索单变量质量 变量类型情况 变量缺失情况 变量异常情况 变量重复情况 变量均匀情况 探索单变量价值 变量与标签主观相关性(业务逻辑) 变量与标签客观相关性(数据表现) 2022-03-17 风控技术 #风控模型
【模型可解释笔记】 模型可解释之Shap 简介 SHAP(SHapley Additive exPlanations)是一种博弈论方法, 用于解释任何机器学习模型的输出. 理论基础: A Unified Approach to Interpreting Model Predictions Github 官方仓库 Shapley value Shapley value 起源于合作博弈论, 诺贝尔经济学奖得主 Lloyd S. Shapl 2022-03-03 Model Explainable #Shap
【Hive笔记】 日常踩坑 隐形转换异常 Hive 版本为 1.2.1 场景简述: 针对字符串字段与常量数值进行对比判断 数据问题: 结果存在 null 情况 问题 SQL 举例如下: SELECT 'default' <> -1 情景分析: SELECT 'default' <> -1 实际上相当于 SELECT CAST('default' AS INT) <> -1 由于左侧为 nul 2022-02-22 大数据框架 #Hive
超参数优化工具之Optuna 简介 Optuna是一个自动超参数搜索的超参数优化框架, 可应用于机器学习和深度学习模型.主要具备如下特点: Define-by-run API: 允许用户动态构建参数搜索空间 > 论文举例: 以针对 MLPClassifier 优化层数与隐藏层单元数为切入点与 Hyperopt 的 define-and-run 式相对比, 凸显其动态构建空间的便捷; 该方式也是目前主流深度学习(Pyto 2022-02-20 AutoML #hyperparameter optimization
【Hive笔记】 四、用户自定义函数UDF 概述 在Hive中, 用户可以自定义一些函数, 用于扩展HiveQL的功能, 这类函数分为三大类: UDF(User-Defined-Function) 特点:一进一出; 继承UDF类(org.apache.hadoop.hive.ql.exec.UDF) UDAF(User-Defined Aggregation Function) 特点:多进一出 继承UDAF类(org.apache. 2022-02-19 大数据框架 #Hive