配置数据归档任务


EnOS支持对来自实时通道的设备采集数据或经流数据处理服务之后的实时数据、来自离线通道的数据、实时告警记录、以及存储在TSDB中的历史数据进行归档,提供灵活的存储配置方式,降低数据存储的成本。

前提条件

  • 已被授权数据归档模块访问权限
  • OU已申请数据归档计算资源

新建数据归档任务

对数据进行归档存储,需为资产模型创建归档任务。

  1. 登录 EnOS 管理控制台,在 通用资源 下,选择 数据归档

  2. 如OU尚未申请数据归档资源,前往 资源管理 > 公共服务 页面申请。

  3. 点击 新建任务,选择待归档数据的数据源:

    • 实时消息通道:用于归档设备采集的实时数据或经流数据处理后的计算结果,对应的任务类型为实时归档
    • 离线消息通道:用于归档来自消息集成的离线数据,对应的任务类型为实时归档
    • 实时告警记录:用于归档资产实时告警记录,对应的任务类型为实时归档
    • TSDB:用于归档存储于TSDB的历史数据,对应的任务类型为离线归档
    _images/create_archiving_job.png
  4. 点击 确定,进入归档任务详细配置页。

注解

单个组织内最多可创建10条数据归档任务。

基础信息

输入数据归档任务的基础信息:

  1. 名称:输入数据归档任务的名称,支持中文、英文大小写字母、数字、和下划线,并且不能超过50个字符。
  2. 描述:输入对数据归档任务的描述,不能超过100个字符。

存储配置

填写存储归档数据的详细配置信息,包括选择存储资源、设置存储文件属性等。

  1. 选择 资源类型,指定同步归档文件的目标存储系统(支持HDFS和BLOB)。

  2. 存储资源 下拉菜单中,选择已通过 数据源注册 注册的BLOB数据源,或通过 资源管理 申请的HDFS存储资源。

  3. 输入归档数据在存储系统中的 存储路径,路径必须以”/”开始和结尾,并选择存储路径根目录的时间分区格式。对时间分区格式的详细介绍,参见 存储路径分区参数

  4. 选择按事件时间或系统时间生成目录,对按不同时间生成目录的详细介绍,参见 数据归档逻辑

    注解

    对于离线消息通道和实时告警记录归档任务,仅支持选择按事件时间生成目录。

  5. 输入归档 文件名称,支持英文大小写字母、数字、和中横线,并且不能超过50个字符。文件生成时,系统将自动在文件名后加上”_UTC”时间戳后缀。若选择按事件时间生成目录,则时间戳后缀为数据的事件时间对应的UTC+0时间;若选择按系统时间生成目录,则时间戳后缀为系统时间对应的UTC+0时间;

  6. 选择 文件类型,目前支持TEXTFILE格式(.csv)。

  7. 选择归档文件 编码格式,默认格式为UTF-8。

  8. 选择 列分隔符,默认为逗号。

  9. 选择归档文件 压缩格式,默认为非压缩。可选择将归档文件压缩为 GZIP 格式。

    注解

    若归档任务的目标存储为BLOB时,归档文件的 content type 如下:

    - 若选择文件压缩(.gzip),则归档文件的 content type 为 application/octet-stream。
    - 若选择文件非压缩(.csv),则归档文件的 content type 为 application/csv。
    
  10. 选择归档文件 大小上限(文件压缩前的大小限制)。如果文件超出上限,系统将对文件进行切分存储。切分后的文件命名规则为 filename_UTC_nn为6位随机字符串。

    _images/archiving_job_config_1.png

    注解

    数据归档任务一旦提交,文件类型、编码格式、列分隔符、压缩格式不可再修改。

归档配置

选择数据归档任务的 归档周期,若被归档数据处于同一时间窗口内,将被写入同一个文件,然后按文件大小上限进行切分。目前支持数据归档任务以1小时、12小时、24小时为周期归档数据。


选择较长的归档周期,可以有效减少因数据延迟产生的小文件数量。设置不同的归档周期,归档任务的计划开始时间不同,处理的数据区间也不同。每个归档周期,对应的归档数据范围,表示系统时间处于 “前一个归档周期的计划开始时间” 至 “当前归档周期的计划开始时间” 之间的数据。数据归档策略提交之后,归档周期不可再修改。


每个归档周期选项的计划开始时间,以及归档数据的范围,参见 归档周期说明

内容配置

实时消息通道和离线消息通道归档任务

选择归档数据所属的模型。单个模型可配置多个数据归档任务。

_images/archiving_job_config_2.png

实时告警记录归档任务

  1. 选择归档告警记录的类型,历史告警或当前告警。历史告警指已恢复的告警记录,当前告警指未恢复的告警记录。

  2. 选择待归档告警记录的字段。

  3. 选择归档告警数据所属的模型。

    _images/archiving_job_config_3.png

TSDB数据归档任务

  1. 选择归档数据的时间范围(设备的本地时间)。一次归档可选择的最大时间跨度为30天或1个自然月。

  2. 选择归档数据所属的模型。

    _images/archiving_job_config_4.png

提交任务

以上配置完成之后,点击 确认,提交数据归档任务配置。数据归档任务提交后,将立即生效。

  • 数据归档以归档任务提交时刻为起点,开始从消息通道中读取新的数据。在归档任务提交时对应的归档周期内,如果无数据被缓存,则不会生成归档文件。
  • 如果修改归档任务配置,若当前周期的数据归档任务未完成,将立即按照新提交的配置运行,已归档的数据不受影响。对于新增模型的数据,也将被立即开始归档。
  • 对于生成归档文件的规则,参见 归档文件生成规则