从外部数据库同步文件到文件存储 HDFS


本文描述了如何从零开始创建从外部数据库同步文件到文件存储 HDFS 的手动调度的任务。

开始前准备

你必须已完成外部数据库的数据源连接,且外部数据库中已存储待同步的文件。更多信息,参考 数据源注册

步骤1:创建数据同步任务

  1. 登录 EnOS 管理控制台,选择 数据同步
  2. 点击目录树上方的 +,或点击空白页中的 新建数据同步任务
  3. 新建数据同步任务 窗口中,完成数据同步任务的基本设置。
    • 方式:选择 新建,从零开始创建同步任务。如果选择 导入任务配置,参考 基于已有任务创建新的同步任务
    • 名称:输入数据同步任务的名称。
    • 同步类型:选择 文件流
    • 调度类型:选择 手动调度
    • 描述:输入对数据同步任务的描述性信息。
    • 选择目录:选择保存数据同步任务的目录。
  4. 单击 确定 完成创建。

步骤2: 选择数据源

选择同步文件的数据源,同步到文件存储 HDFS,需要完成以下配置:

  1. 数据源类型 中,选择文件数据源。目前仅支持 Azure BLOB 数据源。

  2. 数据源 中,选择在数据源注册中已经注册的数据源。可点击 新增数据源,打开 数据源注册 页面,注册新的数据源。

  3. 目录或文件名 中,输入待同步的文件目录或文件名。目录或文件名支持输入通配符、系统变量、及自定义变量。若填写目录,目录必须以“/”结尾。

    _images/blob_source.png
  4. 点击 下一步,选择同步文件目标。

步骤3:选择目标

目前文件同步目标仅支持文件存储 HDFS,需要完成以下配置:

  1. 数据源类型 中,选择 HDFS(EnOS)。

  2. 目录 中,输入存储同步文件的子目录。子目录必须以“/”结尾。如果不输入子目录,则文件或目录结构默认同步到根目录下。

  3. 选择 文件写入规则,即出现同名文件时,选择覆盖或不覆盖同名文件:

    • 同名文件覆盖:在文件同步过程中,如果在相同目录下遇到同名文件,后到达文件会自动覆盖先到达的文件。
    • 同名文件不覆盖:在文件同步过程中,如果在相同目录下遇到同名文件,则任务终止,log中会记录同名文件的信息。任务终止后,已同步至HDFS的文件不会被自动清理。
    _images/blob_target.png
  4. 点击 下一步

步骤4:配置并发数

选择要建立的并发连接数,然后点击 下一步


如设置高并发数,数据库会承受更大的负载,当总传输速率固定时,单个连接的速率会变小。

步骤5:预览并保存配置

预览任务配置,如需再编辑,点击 上一步,跳转到对应步骤。然后点击 完成 保存配置。完整的任务配置信息如下图所示:

_images/sync_file.png

后续操作

点击 预跑,选择触发时间,测试文件同步任务。实例将在运行任务后产生。接着,你可在 任务运维 页面跟踪有关实例的详细信息。更多信息,参考 任务运维


从源数据库同步文件后,你可以设置其它数据或文件处理任务。更多信息,参考 批数据处理