本期导读 【OSS 访问加速】第十讲
主题 Impala?如何高效查询 OSS 数据
讲师 流影 阿里巴巴计算平台事业部 EMR 技术专家
内容框架
背景介绍Impala 使用 JindoSDK具体演示直播回放链接 9/10讲
https://developer.aliyun.com/live/246875
能够对存储在 Hadoop 集群的 PB 级数据进行快速 SQL 查询分析的分布式 MPP 查询框架
使用 JindoSDK 高效查询 OSS 数据JindoFS SDK 是一个简单易用面向 Hadoop/Spark 生态的 OSS 客户端 为阿里云 OSS ?提供高度优化的 Hadoop FileSystem 实现。通过 JindoFS SDK 可以在 Hadoop 环境中直接使用 oss://bucket/?的方式访问阿里云 OSS 上的内容。
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md
2、配置 JindoFSOSS 实现类配置 IMPALA 使用的 core-site.xml 配置 JindoFS SDK 访问OSS
?
将 jar 包拷贝到 $IMPALA_HOME/lib/
修改 JindoSDK 配置
演示 Impala 加载和查询 OSS 表
?点击回放链接 直接观看第9/10讲视频回放 获取讲师实例讲解
https://developer.aliyun.com/live/246875
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/impala/jindosdk_on_impala.md
?Github链接
https://github.com/aliyun/alibabacloud-jindofs
不错过每次直播信息、探讨更多数据湖 JindoFS OSS 相关技术问题 欢迎扫码加入钉钉交流群
本文转自网络,原文链接:https://developer.aliyun.com/article/784640