风扬
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

【Hive笔记】 三、Hive的DDL和DML操作

首先明确定义什么是 DDL 和 DML: DDL(Data Definition Language) 数据定义语言: 对数据库中的对象进行操作 DML(Data Manipulation Language) 数据操纵语言: 对数据库中的数据进行操作 DDL操作 新建数据库 -- 新建数据库 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_na
2022-02-18
大数据框架
#Hive

【风控数据】 身份证件数据及验证

简述 随着实名制的不断推进, 越来越多的网站和应用都会让用户填写身份证件等信息, 该类数据一般均为风控数据最为基准的数据内容, 该类信息除利用公安库接口进行比对, 还有一些前端可实现的方法进行一定的逻辑判断. 校验位匹配 大陆身份证 大陆身份证号由18位数字构成, 共分为四个部分: 1-6: 6位数字地区码 7-14: 8位数字出身年月码 15-17: 3位数字顺序码 18: 1位校验码 假设
2022-02-17
风控技术
#风控数据

【Hive笔记】 二、表、视图和索引

数据表 数据属于互联网公司的核心资产之一, 但是随着时间, 数据不断膨胀, 如何优化数据表从而平衡空间和时间的开销.本部分将介绍 Hive 表支持的分区表和分桶表思路. 两种手段既可以单独使用, 也可结合使用. 分区表 分区表: 利用特定字段针对数据进行分区(分类), 例如对于采集日志数据量巨大按照 date/hour 等粒度分类, 从而在针对单日某小时数据进行离线计算节省扫描时间.多重分区
2022-02-17
大数据框架
#Hive

【Hive笔记】 一、准备知识

简介 官方描述: The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in
2022-02-16
大数据框架
#Hive

【读书笔记】中国国家治理的制度逻辑-周雪光

导览 学术研究的意义不在发现和批评荒谬,而在发掘和解释荒谬背后的现象。 -- 史学家黄仁宇 书籍名称: 中国国家治理的制度逻辑 豆瓣评分: 9.2 推荐理由: 2017年度社科-心理 第二名, 从社会调查中总结中国国家治理的制度逻辑, 论点明确, 属于较为优异的社科学术读物. 内容提炼 作者针对中国社会如下三个重大问题, 提出的着力点在于 中国国家治理的制度逻辑. 与其他古老文明相比,
2022-01-19
读书笔记
#读书笔记

半监督支持向量机

预备知识 什么是半监督学习 有标记样本集合 \(\mathbb{D}_l = \{ (\vec{x}_1), y_1), \cdots, (\vec{x}_l, y_l) \}\) 未标记样本集合 \(\mathbb{D}_u = \{ (\vec{x}_{l + 1}), y_{l + 1}), \cdots, (\vec{x}_{l+u}, y_{l+u}) \}\) 其中 \(l <
2021-09-26
机器学习
#半监督学习

GDBT模型增量学习方法

前言 在工作的实际项目中, 由于每天数据量都在不断积累, 常常存在需要在线迭代模型的需求, 但是重新训练模型成本过高, 此时在成本和精度权衡下, 可以采用增量学习的方式. 机器学习-增量学习 基于XGBoost增量学习 如下参数解释详见: XGBoost官方文档 # 模型参数 ## 从原模型中随机取树进行迭代, 更新树节点的统计数据, 并不会执行数据行随机子采样 params.update(
2021-09-08
零碎记录
#增量学习

FreshRSS 平台搭建

RSS 是最为简洁直接的信息获取手段, 可以防止各种低质量信息的轰炸. 在 即刻APP 陨落、Feedly 等封禁后, 博主开始了自搭建 RSS 平台的道路. 博主选择 FreshRSS 平台, 大家也可选择 TTRSS, 由于 Reeder 5 废弃 fever API 后, 因此 FreshRSS 较好. 安装 Docker 博主所用 VPS 为 Ubuntu 18.04 系统, 如下命令
2021-08-10
服务器
#FreshRSS

Spark Structured Streaming 实战

前言 近期博主开发过程中, 需要利用 Kafka 进行大批量数据推送, 经过调研, 发现 Spark Structured Streaming 是个很好的实现思路, 无需自行实现生产者和消费者, 实现批数据推送. Structured Streaming 在 Spark2.x 中,新开放了一个基于 DataFrame 的无下限的流式处理组件 Structured Streaming. 实现了 有且
2021-08-09
大数据框架
#Spark

Windows 开发工具配置

前言 博主有时需要兼顾游戏与办公等, 并且由于深度学习, 显卡配置 N卡, 因此配置WINDOWS开发美化环境. SCOOP 配置 如果使用过 MACOS 的 brew 包管理系统, 这个相当于 Windows 的 brew 管理系统. 官方安装文档: Scoop 设定路径 Scoop默认是安装在C盘中用户主目录下的,可以在开始前设定好scoop的安装目录(请在以管理员身份运行的Powersh
2021-08-09
日常平台
#Windows
1234

搜索

Hexo Fluid
总访问量 次 总访客数 人