本期导读 【JindoTable 计算加速】第二十一讲
主题 分层更高效 对 Hive 数仓进行热度/冷度统计uid JindoFS 对 OSS 上数据进行训练加速
讲师 羊川 阿里巴巴计算平台事业部 开发工程师
内容框架
热/冷度统计介绍热/冷度统计用法演示直播回放链接 21讲
https://developer.aliyun.com/live/247112
一、热/冷度统计介绍为什么要分层统计 ? ? Hadoop? ?? 所有数据一视同仁
? ?? 数据量增加时 成本也在增加
? ?? 横向拓展
? 多种数据存储类型
? ?? 不同计费方式
OSS 数据存储类型标准
? ?? 0.12元/GB/月
低频访问? ?? 0.08元/GB/月
归档? ?? 0.033元/GB/月
冷归档? ?? 0.015元/GB/月
数据热/冷度统计区分不同类型数据降低成本缓存加速? ?? Hive
? ?? Spark
? ?? Presto
版本? ?? 冷度统计 EMR-3.35/4.9之后的版本
? ?? 热度统计 EMR-3.33/4.3之后的版本
? ?? 暂不支持 DLF 数据湖元数据
自建 Hadoop 集群? ?? 需要结合其他JindoFS的服务一起使用
Hive 开启热度统计登陆阿里云 E-MapReduce 控制台进入自己的集群集群服务 – Hive – 配置搜索参数 hive.exec.post.hooks 在其后追加 com.aliyun.emr.table.hive.HivePostHook保存 - 自动更新配置 - 重启 HiveServer2Hive 开启冷度统计参照热度统计配置 hive.exec.post.hooks服务配置 - hive-site - 自定义配置
?? key hive.hook.update.access.time.enabled
?? value true
保存配置 - 重启 All ComponentsSpark 开启热度统计SmartData 3.2.X版本后 Spark 默认开启数据收集Spark 开启冷度统计登陆阿里云 E-MapReduce 控制台进入自己的集群集群服务 - Spark - 配置?? 搜索参数 spark.sql.queryExecutionListeners 确保参数值中包括 com.aliyun.emr.table.spark.SparkSQLQueryListener 如果存在多个 listener 使用英文分号隔开。
服务配置 - spark-defaults - 自定义配置?? key: spark.sql.query.update.access.time.enabled
?? value: true
?? 保存配置
?? 重启 All Components
Presto 开启热度统计SmartData 3.2.X版本后 Presto 默认开启数据收集Presto 开启冷度统计登陆阿里云 E-MapReduce 控制台进入自己的集群集群服务 - Presto - 配置?? 搜索参数 event-listener.name 确保参数值中包括 jindo-presto-post-event-listener
服务配置 - event-listener.properties - 自定义配置?? key: listener.update.access.time.enabled
?? value: true
?? 保存配置
?? 重启 All Components
热度统计用法语法?? jindo table –accessStat -d -n
? days 和 topNums 都是正整数
? 当 days 为1时 表示查询从本地时间当天00:00起的所有访问记录
?? 查询指定时间范围内 访问最多的 N 个表或分区的记录
?? jindo table -accessStat –d 7 –n 20
冷度统计用法语法?? jindo table –leastUseStat -n [-i/-ignoreNever]
? nums 是显示的记录数量 为正整数
? -i/-ignoreNever 为可选参数 会过滤从未被访问过的表或分区
?? 展示最久未被访问的表或分区
?? jindo table –leastUseStat –n 20
相关文档链接 热度统计使用文档
https://help.aliyun.com/document_detail/264174.html
冷度统计使用文档https://help.aliyun.com/document_detail/264175.html
?点击回放链接 直接观看第21讲视频回放 获取讲师实例讲解
? ?https://developer.aliyun.com/live/247112
?Github链接
https://github.com/aliyun/alibabacloud-jindofs
不错过每次直播信息、探讨更多数据湖 JindoFS OSS 相关技术问题 欢迎扫码加入钉钉交流群
本文转自网络,原文链接:https://developer.aliyun.com/article/785936