程序员

DataWorks 功能实践速览02期

作者:admin 2021-08-17 我要评论

往期回顾 DataWorks 功能实践速览01期——数据同步解决方案 功能推荐 独享数据集成资源组 如上期数据同步解决方案介绍 数据集成的批数据同步任务运行时 需要占用...

在说正事之前,我要推荐一个福利:你还在原价购买阿里云、腾讯云、华为云服务器吗?那太亏啦!来这里,新购、升级、续费都打折,能够为您省60%的钱呢!2核4G企业级云服务器低至69元/年,点击进去看看吧>>>)

往期回顾 DataWorks 功能实践速览01期——数据同步解决方案

functionpractice2.png

功能推荐 独享数据集成资源组

如上期数据同步解决方案介绍 数据集成的批数据同步任务运行时 需要占用一定的计算资源 这些资源即资源组 通常先从数据来源所在的机器抽取数据至资源组所在的机器 再推送至目标数据源所在的机器。

functionpractice2-1.png

而进行数据同步时 可以根据实际情况规划使用哪种数据集成资源组 资源组规划的关键点包括连通性和性能两方面。

以下就从数据集成资源组的类型与性能、网络连通性两方面 为您介绍数据集成资源组的详情


Part1 数据集成资源组的类型与性能对比

DataWorks数据集成支持多种不同资源组

独享数据集成资源组
购买后可独占使用的资源组。在任务高并发执行且无法错峰运行 需要独享的资源组来保障数据快速、稳定地传输时 您可以选择独享资源组。自定义数据集成资源组
如果您有富余的服务器资源 也可将此部分资源作为DataWorks中任务运行的资源组使用 DataWorks支持自定义资源组。


以上两种数据集成资源组在应用上的能力对比如下表所示


类别

独享资源组

自定义资源组

机器资源归属

由DataWorks维护 是自己的租户独享使用的计算资源。

由您自己维护 是属于您的IDC机器。

网络

支持VPC、公网和任意网络下的阿里云产品。

支持VPC、公网和任意网络下的阿里云产品。

收费方式

根据机器的规格 包年包月计费。

DataWorks版本按月使用收费。

支持的数据源

全部数据源

全部数据源

安全性

根据您自身机器所处的环境决定

任务执行的效率

指任务是否能够分到足够的计算资源 能否以最高性能运行。

根据您自身机器所处的环境决定

可靠性

指任务是否能够按时启动。执行任务时 网络资源是否被其它租户占用 导致任务不能按时产出结果。

根据您自身机器所处的环境决定

适用场景

大量、重要的生产级别的任务。

使用自定义资源组的场景如下

如果您自身已有计算资源 可以对接阿里云重复使用 无需重新购买。需要同步的数据源全部在IDC内。

推荐指数

★★★★★


非常建议您使用独享数据集成资源组来运行数据集成任务。独享数据集成资源组的购买后 您需要完成网络配置和工作空间绑定 后续即可选择与数据源的网络连通方案进行连通配置了。在此之前 独享数据集成资源组的购买与基础配置的操作详情请参见新增和使用独享数据集成资源组


Part2 数据集成资源组的网络连通方案

进行数据同步时 需要根据数据库所在网络环境 通过对应的网络解决方案 实现对应类型资源组与数据库的网络连通。连通方案概览如下。

functionpractice2-2.png

以下为您重点介绍独享数据集成资源组的网络连通方案详情 其他资源组类型的网络连通方案可进入帮助中心查看。


场景1 数据源具备访问公网的能力

如果数据源具备公网访问能力的话 那么数据源与资源组之间可以直接通过公网互访。

functionpractice2-3.jpeg


场景2 数据源在VPC网络中 且VPC和DataWorks在同一个地域

如果数据源在VPC网络中 且VPC和DataWorks在同一个地域 那可以将独享数据集成资源组绑定数据源所在VPC。同时需要关注 资源组与DataWorks是否在同一个可用区中 如果不在同一个可用区中 还需要手动添加一下路由 保障资源组与数据源之间网络是连通的。添加路由的操作详情可参见添加路由

functionpractice2-4.jpeg


场景3 数据源在VPC网络中 且VPC和DataWorks在不同的地域

如果数据源在VPC网络中 且VPC和DataWorks在不同的地域中 那您需要为独享数据集成资源组绑定一个VPC 然后通过高速通道、VPN或其他网络连通产品连通资源组绑定的VPC与数据源所在的VPC。

常见的网络连通产品包括

云企业网使用场景示例 请参见云企业网。高速通道使用场景示例 请参见高速通道。VPN网关使用场景示例 请参见VPN网关

此外 您依旧需要手动添加一下路由 保障网络连通性。添加路由的操作详情可参见添加路由

functionpractice2-5.jpeg


场景4 数据源在IDC内

如果数据源在IDC内 与场景3 数据源在VPC中且与DataWorks不同地域的场景类似 您需要为独享数据集成资源组绑定一个VPC 然后通过高速通道、VPN或其他网络连通产品连通资源组绑定的VPC与数据源所在的VPC。

常见的网络连通产品包括

云企业网使用场景示例 请参见云企业网。高速通道使用场景示例 请参见高速通道。VPN网关使用场景示例 请参见VPN网关

此外 您依旧需要手动添加一下路由 保障网络连通性。添加路由的操作详情可参见添加路由

functionpractice2-6.jpeg


场景5 数据源在经典网络

如果数据源在经典网络内 则此场景下 不支持数据源与DataWorks资源组网络连通 建议您将数据源迁移至VPC网络中。

PS 阿里云经典网络已不推荐使用 建议您迁移数据源至VPC。


Part3 注意事项——白名单的影响

保障资源组与数据源之间网络连通后 您还需保障资源组与数据源之间不会因为白名单的限制而无法进行数据访问 例如 部分数据源设置白名单后会不允许白名单外的IP访问 您需要将资源组的IP添加至数据源的白名单中。

使用不同类型的数据集成资源组时 需要添加到数据源白名单中的IP地址不一致 详情可进入帮助中心查看 以下为您示例 使用独享数据集成资源组时 需要获取并添加到数据源白名单中的IP地址。

交换机网段

functionpractice2-7.png

独享资源组的EIP地址

functionpractice2-8.png


场景实践

了解了独享数据集成资源组后 您可以参考以下文档进行实操实践。

新增和使用独享数据集成资源组同步数据至MaxCompute

















本文转自网络,原文链接:https://developer.aliyun.com/article/787172

版权声明:本文转载自网络,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本站转载出于传播更多优秀技术知识之目的,如有侵权请联系QQ/微信:153890879删除

相关文章
  • DataWorks 功能实践速览02期

    DataWorks 功能实践速览02期

  • 案例|自建or现成工具?小型创业团队敏

    案例|自建or现成工具?小型创业团队敏

  • 实时数仓王炸组合-实时计算Flink版 + H

    实时数仓王炸组合-实时计算Flink版 + H

  • 3GPP TS 29244-g30 中英文对照 | 7.1 T

    3GPP TS 29244-g30 中英文对照 | 7.1 T

腾讯云代理商
海外云服务器