创建从外部数据库同步数据到 Hive 库的手动调度的任务¶

本文描述了如何从零开始创建从外部数据库同步数据到 Hive 库的手动调度的任务。

开始前准备¶

你必须已创建用于存放同步数据的目标 Hive 表。更多信息，参考脚本开发。

如选择从 MySQL、SQL Server 或 Oracle 数据库同步数据时，完成以下设置：

注解

MySQL 数据库需要设置时区为 UTC，否则在数据同步里无法正常显示 MySQL 库里的表。

如选择从 BLOB、FTP、SFTP 或 S3 文本数据库同步数据时，完成以下设置：

从已有的数据源列表中选择数据源或创建新数据源。更多信息，请参阅数据源注册。
输入待同步的目录或文件名。当目录包含多个文件时，数据记录将被合并。在这种情况下，确保同一目录中的所有数据具有相同的列。
- 使用 SAS token 认证的 BLOB 数据源类型的数据目录格式为 https://<containername>/<dir>/<filename>。此种方式下存储容器的根文件夹中的数据无法同步。
- 其他认证方式的 BLOB 数据源类型的数据目录格式为 wasbs://<containername>/<dir>/<filename>。
- S3 数据源类型的数据目录格式为 s3://<bucketname>/<dir>/<filename>。
选择文本数据文件中使用的列分隔符，例如，Tab键、逗号、分号、空格或其他分隔符。
选择数据文件的编码格式：UTF-8、GBK、或 GB2312。
选择数据文件的压缩格式（非压缩、LZO、BZIP2、或 GZIP）。
选择数据匹配模式（按列序匹配或按列名匹配）。
选择加载数据时忽略首部的行数。
指定列头的名称，或上传列头文件。指定的列头将被作为数据源的列名与目标源中的列名匹配。
（可选）点击 数据预览，预览将同步的数据。
点击 下一步。

目前仅支持 HIVE(EnOS) 类型的目标源，完成以下设置（以 S3 数据源为例）。

选择运行数据同步任务的 批数据处理-大数据队列 资源名称（可通过 资源管理 页面申请）。
选择已创建的 Hive 表名称。如果 Hive 表已分区，则会自动加载分区。
指定目标分区。可通过以下方法指定分区：
- 列名：系统将根据该列的每个值创建新分区（从右侧下拉框中选择对应的源列名）。例如：列名为日期，列值为 20180501 和 20180502，则系统会创建两个分区，一天一个分区。
- 固定值：例如，输入2017-10-11，数据将自动同步到目标表的 2017-10-11 分区。
- 占位符：你可以使用系统提供的或自定义的参数。例如，系统变量 $ {cal_dt}。有关系统变量的更多信息，参考系统变量列表。
设定数据写入的规则，覆盖目标表中已有数据或将数据添加到已有数据后。
点击 下一步。

本步骤中，数据源中的指定的列名将与目标源中的列名匹配。也可手动更改数据源中的字段与目标源中的字段的映射关系。

为配置数据源和目标中使用的参数指定参数值。你可以为参数指定常量，系统变量、或自定义变量。步骤如下：

点击配置面板右侧边缘的 参数配置。
在参数输入框中，为每个使用到的参数指定参数值。
例如，将 URL 设置为 S3 数据源时：s3://history/log_solar_dt_change_inverter/${test_list}.each_value

test_list 为参数，你可以为该参数设置值：test_list=Array[20170515,20170516,20170517,20170518,20170519,20170520]

EnOS 将同步设置中指定目录下的所有数据。

你可以将参数值设定为系统变量。更多信息，参考系统变量列表。

为数据同步任务配置容器计算资源。步骤如下：

选择要建立的并发连接数，然后点击 下一步 。

如设置高并发数，数据库会承受更大的负载，当总传输速率固定时，单个连接的速率会变小。

预览设置，如有需要可进行再编辑，然后点击完成保存配置。

点击预跑，测试数据同步任务，实例将在运行任务后产生。接着，你可在任务运维中跟踪有关实例的详细信息。更多信息，参考任务运维。

从数据源同步数据后，你可以根据数据设置其他处理任务。更多信息，参考批数据处理。