风扬
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

Spark使用技巧备忘记录

Spark 历史记录 404X 端口只能看到正在运行App的情况,并不能看到 App 运行结束后的各项数据, 此时就需要使用到 Spark History Server 工具 Spark History Server 通过配置,可以在Spark应用程序运行完成后,将应用程序的运行信息写入指定目录,并且Spark History Server可以将这些信息装在并以Web形式供用户浏览. Hist
2020-10-22
大数据框架
#Spark

【风控指标】 特征筛选指标WOE与IV

WOE和IV的应用价值 WOE(Weight of Evidence)叫做证据权重,WOE在业务中常有哪些应用呢? 处理缺失值:当数据源没有100%覆盖时,那就会存在缺失值,此时可以把null单独作为一个分箱.这点在分数据源建模时非常有用,可以有效将覆盖率哪怕只有20%的数据源利用起来. 处理异常值:当数据中存在离群点时,可以把其通过分箱离散化处理,从而提高变量的鲁棒性(抗干扰能力).例如,ag
2020-03-19
风控技术
#TODO
1234

搜索

Hexo Fluid
总访问量 次 总访客数 人