Spark使用技巧备忘记录 Spark 历史记录 404X 端口只能看到正在运行App的情况,并不能看到 App 运行结束后的各项数据, 此时就需要使用到 Spark History Server 工具 Spark History Server 通过配置,可以在Spark应用程序运行完成后,将应用程序的运行信息写入指定目录,并且Spark History Server可以将这些信息装在并以Web形式供用户浏览. Hist 2020-10-22 大数据框架 #Spark
【风控指标】 特征筛选指标WOE与IV WOE和IV的应用价值 WOE(Weight of Evidence)叫做证据权重,WOE在业务中常有哪些应用呢? 处理缺失值:当数据源没有100%覆盖时,那就会存在缺失值,此时可以把null单独作为一个分箱.这点在分数据源建模时非常有用,可以有效将覆盖率哪怕只有20%的数据源利用起来. 处理异常值:当数据中存在离群点时,可以把其通过分箱离散化处理,从而提高变量的鲁棒性(抗干扰能力).例如,ag 2020-03-19 风控技术 #TODO