机组数字化诊断需要依托于机组运行过程中SCADA系统搜集的数据,通过这些数据的表现来诊断机组的运行情况。数据作为诊断的基础,无论在采集或者处理阶段都需要认真对待。机组运行产生的数据由于采集、传输等环节的存在,工程师拿到的数据并不能满足分析的要求,需要对数据进行前期的一系列处理之后,才能开始进行分析。
数字化诊断的数据预处理阶段是指对已经采集好的风机SCADA数据进行格式及数值的调整。
数据格式的调整包括数据读取、数据合并、数据日期和时间格式规整、数据列的选择等;数据数值调整包括数据异常值和缺失值处理、数据一致性检验、重复数据处理等。
1、格式调整
(1)数据读取:机组SCADA数据状态大体分为离线和在线两种形式,数字化诊断既可以用于离线数据的诊断也可以用于在线数据的诊断:对于离线数据,工程师拿到的数据由存储在数据库中的、也有csv/txt等格式的;对于在线数据,有接入数据库的,也有直接连接到传感器的。不同的数据来源需要采用不同的数据读取方式。
(2)数据合并:机组的数字化诊断是对机组整体运行情况的诊断,因而需要将能够反映某一时段机组运行状态的数据融合在一起,便于对机组的整体诊断,包括时间(数据的行数)和指标(数据的列数)的合并:对于离线数据,不同数据库的输出方式不同,有的系统是一台机组一个文件或者文件夹,有的是一个机组多个文件或者文件夹;对于在线数据,数据结构也存在很大的差异,感兴趣的可以自行查阅。
(3)数据日期和时间规整:不同的数据来源其对应的时间格式存在很大差异,或者与现有的分析软件不匹配,或者时间间隔不等,因而需要将数据日期和时间格式规整为统一的、软件可以识别的格式。比如2018/8/1 03:30、2018-8-1 3:30、2018-8-1 03:30:00、2018-8-1 3:35:10,需要对其格式进行调整,一般标准时间格式为:2000-01-01 00:00:00。
(4)数据列的选择:分析所需的数据指标包含一些温度、压力、开关、状态等,工程师需要提前确定相应的指标,提取关联性较大的指标数据,剔除多余指标。
经过数据读取、数据合并、数据日期和时间规整、数据列的选择之后,初步得到比较规整的数据集。
2、数值调整
经过数据格式调整之后,已经得到比较规整的数据集,接下来需要对数据本身进行检验和操作,以达到进行数据分析的要求,包括:
(1)数据异常值和缺失值处理:异常值是指实测数据偏离正常水平的数据,比如风场环境温度实测值为200℃;缺失值是指因为某些原因导致数据缺失,只能观测到一部分数据,比如某一时刻风速值没有。这些对应的数据表现都需要进行处理。
(2)数据一致性检验:根据每个指标的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。例如,压力指标出现了负数等应视为超出正常值域范围。
(3)重复数据处理:数据本身没有问题,由于时间间隔的问题,产生时间记录上的重复。比如在将数据的分辨率降低时同一时刻出现多次记录,这样的记录也需要工程师对其进行处理。

数据来源不同,其展现形式也是多种多样的。将大量的、不规则的数据整理成规整的、分析软件能够识别的、实际业务需要的数据是数字化诊断的第一步,也是最重要的一步,质量好的、有效的数据,才能分析出符合实际业务的、易于理解的问题。