【Maven笔记】Maven依赖分析及冲突解决 在项目开发过程中, 常会需要分析JAR包依赖的需要, 从而解决 JAR 冲突等问题 Maven 常见分析命令 查看全部JAR信息 # 列出项目的所有JAR包 mvn dependency:list # 列出项目的所有JAR包依赖树 mvn dependency:tree # 列出项目的所有JAR包依赖树, 仅显示指定JAR的节点 ## 参数形式: [groupId]:[artifactId] 2021-06-24 Maven #Maven
【日常踩坑】Spark踩坑合集 Spark 2.4.X 无法读取 Hive 数据 场景分析: Hive 部分数据表存在数据, Spark 2.1.1 可以读取, 但是 Spark 2.4.X 无法读取 分析过程: 针对可读取数据表和不可读取数据表进行分析 hadoop fs -ls -R can_read_table_path | awk '{print $8}' | awk -F/ '{pri 2021-06-07 日常踩坑 #Spark
【风控数据】 通讯数据类型及应用 前言 随着互联网的不断发展, 目前人们之间的信息交互主要通过电话、微信等, 其中通讯录和通话记录是各种场景常常使用的数据.目前国家对于个人数据采集管控较为严格, 如需利用该数据需要做好合规部分. 通讯数据基本情况 针对通讯记录采用每个人较为常见的数据格式类型: 通讯录: 用户电话 通讯录电话 通讯录备注 通讯录采集时间 通话记录: 用户电话 通讯电话 通讯方式(主叫/被叫) 通话开始时间 2021-05-24 风控技术 #风控数据
【风控数据】 GPS数据机器处理方法 GPS 坐标系 在开发中用到定位和地图功能的都会知道位置信息会有多个坐标系来表示,而不同地图厂商使用的坐标系也可能是不一样的, 因此需要对坐标系进行统一. 坐标系 解释 使用地图 WGS84 地球坐标系,国际上通用的坐标系.设备一般包含GPS芯片或者北斗芯片获取的经纬度为WGS84地理坐标系,最基础的坐标,谷歌地图在非中国地区使用的坐标系 GPS/谷歌地图卫星 GCJ02 火星 2021-05-24 风控技术 #风控数据
【风控模型】特征工程之类别不平衡问题 在风控场景中, 由于正样本获取的成本较高, 往往样本比例是失衡的, 样本的不平衡很容易导致模型偏向比例较高的一方 imbalanced-learn imbalanced-learn 是一个MIT许可开源的源代码库, 依赖于 scikit-learn 库, 为处理不均衡的分类问题提供工具. imbalanced-learn 文档 imbalanced-learn github 地址 cond 2021-03-20 风控技术 #风控模型
【Hive笔记】 五、调优指南 概述 如下很多配置其实在 hive 的新版本已经优化啦, 通用配置放置 $HOME/.hiverc 即可持续生效 各种场景的优化有所不同, 可以利用 analyze table 进行分析. 通用优化 表连接优化 数据量大的表放在后面 Hive假定查询中最后的一个表是大表.它会将其它表缓存起来,然后扫描最后那个表.因此通常需要将小表放前面,或者标记哪张表是大表:、 利用 set hive.auto 2021-02-20 大数据框架 #Hive
【读书笔记】结构性改革-黄奇帆 阅读之前 内容与思考 什么是结构性改革 黄奇帆先生: 与宏观调控中的总量调控不同,供给侧结构性改革是经济运行体制机制的改革,解决的是结构性问题. 总量调控: 货币政策和财政政策属于需求侧的宏观调控,属于宏观经济学范畴.类似调节汽车的油门大小; 供给侧结构化改革: 体制机制性改革从而实现长期和结构性变化,属于制度经济学范畴.类似改造汽车的发动机结构. 宏观经济背景 供给、需求侧的理 2021-01-12 读书笔记 #读书笔记
【风控指标】 模型稳定性指标PSI指标 在风控的实际工作中, 模型是特定时期的样本所开发的, 可能在构建时期符合场景,但是随着时间的推移模型就会失效.因此模型稳定性在风控中是评价模型的重要指标. 稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指标. 模型稳定性是什么 在控制领域中,稳定代表着某项指标波动小(例如低方差), 指标曲线几乎 2020-12-28 风控技术 #TODO
【数学基础笔记】 什么是VC维? 定义 VC维(外文名 Vapnik-Chervonenkis Dimension)的概念是为了研究学习过程一致收敛的速度和推广性(Generalization performance),由统计学理论定义的有关函数集学习性能的一个重要指标. 简单来说,VC维是用来衡量研究对象(数据集与学习模型)可学习性的指标. 如何理解可学习性? 机器学习的学习过程 基本概念 \(\mathcal{A}\) 2020-12-25 数学基础 #VC维
【数学基础笔记】 分层抽样 分层抽样 在抽样之前, 先将总体 \(N\) 个单元划分成 \(L\) 个互不重复的子总体, 每个子总体称为层, 之后在每个层中分别独立地进行抽样, 这种抽样就是分层抽样, 所得到的样本称为分层样本. 如果每层都是简单随机抽样,则称这样的分层抽样为分层随机抽样,所得到的样本称为分层随机样本. 分层抽样的特点和作用 分层抽样可以提高参数估计的精度 分层抽样不仅能对总体参数进行估计,而且能对各层 2020-11-05 数学基础 #分层抽样