当前位置: 首页 > 能源互联网 > 综合新闻

加强非结构化数据治理 为业务工作赋能

中国电力网发布时间:2022-11-22 00:00:00

  数字信息时代,数据对经济建设、社会生活和企业管理等产生了重要影响。根据高德纳(Gartner)公司分析,企业近80%的数据为非结构化数据。随着数据爆炸式增长,非结构化数据将成为数据增长主力。实施非结构化数据治理、提升数据质量、挖掘数据价值是企业迈入数字化时代的关键。对电网企业而言,海量智能终端所生成的文档、图像、语音、视频等非结构化数据量已达到PB级。加强非结构化数据治理,实现非结构化数据解析与价值挖掘,对电网企业发展具有重要的意义。

  何为非结构化数据及数据治理

  非结构化数据是数据结构不规则或不完整,没有预定义模型的数据。在企业的整体数据架构中,非结构化数据往往是指不适用于数据库二维关系逻辑表表达的数据,包括所有格式办公文档、工程图纸、图像和音视频文件等。在国家电网有限公司数据资产中,非结构化数据包括由地理信息系统、95598客服系统、项目管理系统、电子商务平台等产生的地理信息数据、客服语音、项目资料、物资采购信息等数据。

  数据治理是指在管理数据资产过程中行使权力,包括计划、监控和实施三个步骤。数据治理聚焦如何制订有关数据的决策、人员在数据管理方面的行为方式,确保根据数据管理制度和最佳实践正确地管理数据。

  非结构化数据治理统筹和协调非结构化数据各项管理工作有序开展,核心要素体现在组织、制度、文化和考核四个方面,这些是开展非结构化数据管理工作的关键。

  电网企业非结构化数据治理的前景和挑战

  公司于2019年开展数据中台建设,2022年数据中台迈入深化运营阶段,非结构化数据通过非结构化组件基本实现了集中存储,满足基于文档全周期的存、取、用需求。电网企业的非结构化数据贯穿于发电、输电、变电、配电、用电和调度所有环节,也几乎存在于企业经营管理的所有业务应用当中。随着人工智能等信息处理技术发展,非结构化数据管理的内涵及外延都在发生深刻变化,有必要重新审视当前企业非结构化数据管理现状,规划新时期非结构化数据管理体系及实施路径。电网企业非结构化数据治理工作主要面临着以下挑战:

  存在信息孤岛。电网企业在日常经营管理和业务管理过程中使用功能各异的应用系统或信息化管理平台,产生各种非结构化数据。这些非结构化数据具有来源多、格式多、涉及专业多等特点,这一方面是由于信息系统的建设具有阶段性,另一方面是由于各个系统自成体系,导致系统之间的数据呈现孤立状态,数据标准不统一,缺少数据贯通接口。

  管控体系不完善。电网企业部分系统之间实现了文件之间的流转,但是非结构化数据管理方法和制度仍然不够完善,如部分文件在各个系统内归档管理、流转主要基于数据导出方式,难以进行统一检索和共享利用。

  存在数据黑盒。当前电网企业文档管理制度并非建立在彻底理清数据的基础上。非结构化数据缺少必要的分类和元数据项,缺乏清晰和规范的管理流程和要求,数据量和数据内容难以掌握,影响非结构化数据价值发挥。

  电网企业非结构化数据治理工作探索与实践

  国网大数据中心遵循公司数据发展战略,以充分发挥数据作用、驱动企业数字化转型为目标,按照“基于中台、统筹推进、统一纳管、安全共享”的工作原则,把核心非结构化数据资源汇聚至数据中台,形成全生命周期和全业务系统端到端非结构化数据治理思路,建立从非结构化元数据体系研究与数据资源目录构建到非结构化数据协同治理的工作模式,推动中台非结构化数据质量提高,为业务工作赋能。

  非结构化数据的全生命周期管理包括非结构化数据采集、传输、存储、交换等各个环节的数据集整体管理,以及各个数据项处理方法。

  基于数据中台开展非结构化数据统一存储。基于数据中台非结构化组件集中存储和管理所有接入业务应用系统的非结构化数据。将非结构化存储空间划分为存储区和共享区,其中存储区用于接入、存储源业务系统非结构化数据,相关数据满足各专业系统对本系统非结构化数据全生命周期的存、取、用需求。共享区汇聚具有高共享价值的非结构化数据,相关数据经数据盘点、业务部门确认,用于跨专业跨系统数据共享和构建数据服务,并在数据资源目录可视可查。

  建立元数据管理体系。将非结构化数据的元数据分为基础元数据和增强元数据,梳理形成非结构化数据元数据体系。其中基础元数据参考国家标准《信息与文献都柏林核心元数据元素集》(GB/T25100-2010),实现对非结构化数据对象的规范定义,如标题、来源、摘要等。增强元数据依据应用业务需求进行设计,包含源端系统业务元数据、管理元数据及操作元数据。采用统分统管原则,基础元数据统一管理,增强元数据按需设计,形成一套完整的元数据管理体系。

  打造中台非结构化数据共享区,实现文件流转与共享。新建应用系统基于数据中台建设,存量业务应用系统逐步按需将非结构化数据迁移至数据中台,基于数据中台非结构化组件,统筹不同应用系统的文件在数据中台流转与共享。通过数据中台构建文件智能分析能力,使各使用方可以快速检索并在不同应用系统之间传递所需文件,保证文件的准确性、一致性、及时性、安全性等,支撑非结构化数据在不同专业之间、端到端有序高效地传递和交互。

  开展质量管理。依据数据在生命周期各个阶段的特性,建立数据质量控制机制,及时发现非结构化数据质量问题,提升数据可用性。数据使用方在使用过程中提出数据质量需求或数据质量问题,协同数据管理方、数据提供方进行数据质量治理,开展非结构化数据治理流程管控,实现非结构化数据治理闭环管理。

  建立常态运营机制,建设多元化应用样板间。完善非结构化数据运营机制,常态开展非结构化数据需求受理、解决方案制订、数据接入、数据溯源、数据共享等工作。专项推进建设多元化应用样板间,聚焦制度标准管理体系开展数字化赋能建设,扩大技术资料、标准制度等公开数据接入范围,满足基层用户查数据、用数据需求;围绕项目中台智能化提升工作,构建非结构化数据提取功能和专题检索服务,辅助项目过程材料智能审查,改变现有线下传递、低效审阅的局面。

  (作者单位:国家电网有限公司大数据中心)

评论

用户名:   匿名发表  
密码:  
验证码:
最新评论0

相关阅读

无相关信息