程序员

数据湖实操讲解【 JindoTable 计算加速】第二十一讲:分层更高效

作者:admin 2021-07-29 我要评论

本期导读 【JindoTable 计算加速】第二十一讲 主题 分层更高效 对 Hive 数仓进行热度/冷度统计uid JindoFS 对 OSS 上数据进行训练加速 讲师 羊川 阿里巴巴计算平...

在说正事之前,我要推荐一个福利:你还在原价购买阿里云、腾讯云、华为云服务器吗?那太亏啦!来这里,新购、升级、续费都打折,能够为您省60%的钱呢!2核4G企业级云服务器低至69元/年,点击进去看看吧>>>)
本期导读 【JindoTable 计算加速】第二十一讲


主题 分层更高效 对 Hive 数仓进行热度/冷度统计uid JindoFS 对 OSS 上数据进行训练加速

讲师 羊川 阿里巴巴计算平台事业部 开发工程师


内容框架

热/冷度统计介绍热/冷度统计用法演示


直播回放链接 21讲

https://developer.aliyun.com/live/247112

一、热/冷度统计介绍为什么要分层统计 ? ? Hadoop

? ?? 所有数据一视同仁

? ?? 数据量增加时 成本也在增加


OSS

? ?? 横向拓展

? 多种数据存储类型

? ?? 不同计费方式

OSS 数据存储类型标准

? ?? 0.12元/GB/月

低频访问

? ?? 0.08元/GB/月

归档

? ?? 0.033元/GB/月

冷归档

? ?? 0.015元/GB/月

数据热/冷度统计区分不同类型数据降低成本缓存加速


二、热/冷度统计用法适用范围引擎

? ?? Hive

? ?? Spark

? ?? Presto

版本

? ?? 冷度统计 EMR-3.35/4.9之后的版本

? ?? 热度统计 EMR-3.33/4.3之后的版本

? ?? 暂不支持 DLF 数据湖元数据

自建 Hadoop 集群

? ?? 需要结合其他JindoFS的服务一起使用

Hive 开启热度统计
登陆阿里云 E-MapReduce 控制台进入自己的集群集群服务 – Hive – 配置搜索参数 hive.exec.post.hooks 在其后追加 com.aliyun.emr.table.hive.HivePostHook保存 - 自动更新配置 - 重启 HiveServer2Hive 开启冷度统计参照热度统计配置 hive.exec.post.hooks服务配置 - hive-site - 自定义配置

?? key hive.hook.update.access.time.enabled

?? value true

保存配置 - 重启 All ComponentsSpark 开启热度统计SmartData 3.2.X版本后 Spark 默认开启数据收集Spark 开启冷度统计登陆阿里云 E-MapReduce 控制台进入自己的集群集群服务 - Spark - 配置

?? 搜索参数 spark.sql.queryExecutionListeners 确保参数值中包括 com.aliyun.emr.table.spark.SparkSQLQueryListener 如果存在多个 listener 使用英文分号隔开。

服务配置 - spark-defaults - 自定义配置

?? key: spark.sql.query.update.access.time.enabled

?? value: true

?? 保存配置

?? 重启 All Components

Presto 开启热度统计SmartData 3.2.X版本后 Presto 默认开启数据收集Presto 开启冷度统计登陆阿里云 E-MapReduce 控制台进入自己的集群集群服务 - Presto - 配置

?? 搜索参数 event-listener.name 确保参数值中包括 jindo-presto-post-event-listener

服务配置 - event-listener.properties - 自定义配置

?? key: listener.update.access.time.enabled

?? value: true

?? 保存配置

?? 重启 All Components

热度统计用法语法

?? jindo table –accessStat -d -n

? days 和 topNums 都是正整数

? 当 days 为1时 表示查询从本地时间当天00:00起的所有访问记录


功能

?? 查询指定时间范围内 访问最多的 N 个表或分区的记录


示例 查询过去7天内访问次数最多的20条表或分区记录

?? jindo table -accessStat –d 7 –n 20

冷度统计用法语法

?? jindo table –leastUseStat -n [-i/-ignoreNever]

? nums 是显示的记录数量 为正整数

? -i/-ignoreNever 为可选参数 会过滤从未被访问过的表或分区


功能

?? 展示最久未被访问的表或分区


示例 查询最久未被访问的20条表或分区的记录

?? jindo table –leastUseStat –n 20


三、演示


配置参数操作数据热/冷度功能展示
相关文档链接 热度统计使用文档

https://help.aliyun.com/document_detail/264174.html

冷度统计使用文档

https://help.aliyun.com/document_detail/264175.html



?点击回放链接 直接观看第21讲视频回放 获取讲师实例讲解

? ?https://developer.aliyun.com/live/247112



?Github链接

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS OSS 相关技术问题 欢迎扫码加入钉钉交流群

69c0a02cc68742fca5d49d92413dc67a.png


本文转自网络,原文链接:https://developer.aliyun.com/article/785936

版权声明:本文转载自网络,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本站转载出于传播更多优秀技术知识之目的,如有侵权请联系QQ/微信:153890879删除

相关文章
  • 十月更新修复了Windows 10的Ping of De

    十月更新修复了Windows 10的Ping of De

  • Windows10 UAC弹窗太烦但又不能关?教

    Windows10 UAC弹窗太烦但又不能关?教

  • 老大手把手教我玩 Git 变基!

    老大手把手教我玩 Git 变基!

  • 在Linux终端中展示幻灯片

    在Linux终端中展示幻灯片

腾讯云代理商
海外云服务器