数据归档参考说明

数据归档逻辑

对来自实时消息通道的数据,支持按数据的事件时间或系统时间生成归档文件目录。对来自离线消息通道的数据和实时告警记录,支持按系统时间生成归档文件目录。生成的归档文件将根据存储路径信息,自动同步到指定的存储系统中。


设置存储路径时,若选择按事件时间生成目录,将对数据的内容进行解析并获取数据的事件时间。然后将位于同一个时间分区下的数据,写入到一个文件中。最后将生成的归档文件同步到对应的目录中。若选择按系统时间生成目录,将根据数据的系统时间戳,将位于同一个时间分区下的数据,写入到一个文件中。最后将生成的归档文件同步到对应的目录中。

存储路径分区参数

填写归档文件存储的根目录,并选择生成目录的方式后,还可以选择不同的时间分区参数格式。目前支持四种时间分区参数格式,具体说明如下:


参数格式 说明 示例
YYYYMMDD 按天分目录 /bucketName/samplePath/20190101/
YYYYMMDD/HH 按天/小时分目录 /bucketName/samplePath/20190101/00/
YYYY/MM/DD 按年/月/天分目录 /bucketName/samplePath/2019/01/01/
YYYY/MM/DD/HH 按年/月/天/小时分目录 /bucketName/samplePath/2019/01/01/00/

归档周期说明

对于处在同一归档周期内的数据,将被写入同一个文件,然后按文件大小上限进行切分。目前支持数据归档任务以1小时为周期归档数据。


数据归档以归档任务提交的时刻为起点,开始从消息通道中读取新的数据。归档任务提交时对应的归档周期内,若无数据被缓存,则不会生成归档文件。如果修改归档任务配置,对于新增模型的数据,也将立即开始归档。


归档周期 任务计划开始时间 归档数据范围
1小时 00:00:00, 01:00:00, 02:00:00, …, 23:00:00 以01:00:00为例,归档数据区间为[00:00:00, 01:00:00)
12小时 00:00:00, 12:00:00 以12:00:00为例,归档数据区间为[00:00:00, 12:00:00)
24小时 00:00:00 以2019-01-02 00:00:00为例,归档数据区间为[2019-01-01 00:00:00, 2019-01-02 00:00:00)

注解

  • 归档数据区间的范围,以数据的系统时间戳为准。若数据系统时间戳位于当前归档数据区间内,将按照归档策略配置被归档,并被同步到相应的目录分区中。

归档文件生成规则

  1. 在当前归档周期内,只有到达至少一条数据,才会触发生成归档文件。若当前归档周期内,没有到达任何一条数据,则不会自动生成任何文件或目录。
  2. 选择实时消息通道时,若选择按事件时间生成目录,当上传数据的事件时间晚于系统时间1小时或早于系统时间360小时,归档文件会被保存到用户配置的根目录下,名为archive_recycling_${filename}的文件夹中(其中filename是归档策略中配置的归档文件的名称)。
  3. 生成的归档文件每列对应的内容如下表所示:


字段名称 字段描述
orgId 组织ID
modelId 模型标识符
assetId 资产ID
measurepoints 测点名称
timestamp 测点事件时间
value 测点数据值
quality 质量位