4月29日,山东电力信通公司调度运行中心的信息调度值班员桑林发现一条系统黄色告警信息,马上通过数字监控工具定位故障,发现有一台服务器的磁盘损坏。他快速指挥相应责任人进行维护。1小时内,损坏的磁盘更换完成,告警随即解除。
1~4月,面对北京冬奥会、冬残奥会和全国两会等重大活动电力保障任务,以及电网春检、疫情防控等重点工作,国网山东省电力公司提前部署、主动作为,实施信息系统稳定运行保障新举措,强化工具、技术、人员支撑,提升系统运行、调度监控、应急处置三方面能力,确保山东电网信息系统安全稳定运行。
要做到有效预防信息系统故障,提前发现故障隐患十分重要。国网山东电力建立了横向到边、纵向到底的双维度巡检机制。“横向巡检”对各业务操作系统、中间件和数据库等基础软件开展统一管控监测,并在此基础上开展有针对性的专业技术巡检和性能优化,及时整改基础软件安全漏洞和隐患。“纵向巡检”即按照系统物理架构和逻辑架构,深度开展漏洞扫描、代码渗透测试,从细节上严格把控对外开放接口的安全。
“基础软件和对外开放接口是信息系统的故障多发点。对此,我们重点加强对重要系统、薄弱环节的运维保障,开展双维度巡检。”国网山东电力互联网部建设管理专责徐康说,该公司在北京冬奥会、冬残奥会电力保障期间,面向全专业信息系统开展双维度巡检4590次,整改隐患102项,优化数据库备份149套,重点加强对应急指挥系统等重要系统的保障工作,实现了业务系统安全稳定运行。
加强调度监控的全面性和及时性对于增强系统运行稳定性来说同样重要。国网山东电力创新采用流程机器人、人工智能等数字化技术,推进信息通信调度指挥、调度监控、检修作业等工作的智能替代,实现对内外网全部边界、系统、设备的监测,确保调度监控有点有面、由点及面,系统运行监视“无死角”。
从2021年开始,国网山东电力开发具备“智慧大脑、敏锐眼睛、安全双手”的“数字值班员”。“数字值班员”投入应用后,每天自动统计前一日的电网信息系统运行中出现的缺陷故障,发布调度运行早报。根据“数字值班员”的运维值班结果,管理人员能够有针对性地提出相应系统缺陷的整改意见,补齐电网信息系统运行的短板。
“‘数字值班员’自动运行、不易出错,又可以24小时工作,符合信息业务调度工作的需求,也是我们之后业务开发的重点方向。”徐康说,在北京冬奥会、冬残奥会电力保障期间,“数字值班员”自动监控信息系统运行情况1.4万余次,汇总上报各类报告信息1700余次,节省了大量人工成本,在确保了信息系统调度监控工作准确性的同时促进基层减负。
调度监控的智能化进程推动了信息系统运行实时监控效率的提升,但是要确保及时处置发现的问题,还需要一支召之即来、来之能战的应急处置队伍。为此,国网山东电力提出“专人专班”,选拔互联网专业骨干组建了系统运行保障专班,形成了柔性保障团队和贯通省、市、县级单位的三级指挥机制,实现了对信息调度、运行、检修、客服、网络安全等系统管理各分支专业的高度协同指挥。
每次开展信息系统特巡,系统运行保障专班都会逐一核查关键信息系统的运行方式,确保各类设备、组件、节点均设置了冗余备份策略,及时甄别可能存在的薄弱环节,同时有针对性地优化现有应急预案、完善相应规程,确保故障情况下操作有章可循。
国网山东电力聚焦突发事件应急响应能力,强化实战演练,快速提升保障团队综合素质。北京冬奥会、冬残奥会电力保障期间,该公司开展3轮次实战演练,优化应急预案23套,储备保障设备102台,应急措施保障到位。4月下旬,针对疫情防控期间部分员工居家办公需求,该公司组建专项攻关团队,两天内完成云文档代码研发,优化居家办公服务系统,满足员工居家办公的内外网文件共享服务需求和突发移动应用硬件需求,同时开展信息系统24小时深度运维,保障员工居家办公期间正常开展工作。(韩兴旺 任晓文)
评论