从数据到知识——数据智能化的升级之路

发布时间: 2020-11-18 16:59:14   来源:中国电力网  作者:

 

——来自2020人工智能与电力大数据论坛的智慧共享

  11月11—12日,由中国电力发展促进会(以下简称“电促会”)和国家电网有限公司大数据中心联合举办的“2020人工智能与电力大数据论坛”在京召开。

  11日上午,百度知识图谱部的主任研发架构师宋勋超就《知识图谱及其在电力业务中的应用》在论坛现场做了精彩的主题演讲。


百度知识图谱部的主任研发架构师宋勋

  演讲实录全文如下:

  各位专家,各位领导,各位电力行业的同仁,大家早上好。我是来自百度知识图谱部的主任研发架构师宋勋超,很荣幸能够在今天代表百度参加我们人工智能与电力大数据论坛。我今天汇报演讲的题目是从数据到知识,数据智能化的升级之路。

  我们人类发展到现在,已经经历了三次科技革命。第一次科技革命将人类带入了机械化时代,第二次科技革命将我们带入了电气化时代,第三次科技革命是信息化时代的科学革命。

  目前,我们正处在第4次科技革命正在兴起的时候,第4次科技革命其实就是人工智能的科技革命,人工智能的高速发展,已经为新一轮的产业变革提供了重要的驱动力量。人工智能技术包括以语音、图像、视频、ARVR等为核心组成的感知层技术,以及以语言和知识为核心的认知技术。语言和知识技术是人工智能的核心,它能够像让机器像人类一样去掌握知识,理解语言,对于人工智能的发展至为重要,同时也是我们未来要实现通用人工智能所必须要具备的一个必要条件。

  为什么这么说呢?让我们的让我们来简单的回顾一下人工智能的发展和历程。在人工智能接近60年的发展历程里,我们一共经历了两代的发展,目前正处在第三代的一个发展期。

  第一代的人工智能,我们称之为符号主义的人工智能。我们知道人工智能的三驾马车分别是数据、算力和算法,在这个阶段,人工智能依赖的是专家的经验和知识来去进行显示的符号表示和逻辑推理,取出来模拟人类的一些智能行为,去解决一些推理规划和决策类的问题。

  一个具有代表意义的系统是IBM的国际象棋程序深蓝,那么这个国际象棋程序在1997年打败了国际象棋大师卡斯帕罗夫,然后我们认为第一代人工智能存在着一些质的缺陷,例如专家知识稀缺昂贵,因为这一代人工智能系统,它系统里面所承载的各种各样的知识往往是需要去用专家的能力去人工构建的。另外,这一代人工智能它所涵盖的这个知识形态非常局限,如语言类的知识以及一些模糊类的知识,很难被这一代的人工智能系统所消化,因此它的应用范围非常有限。

  第二代人工智能,也就是大家目前所广泛接触到的基于深度学习的人工智能,这一代人工智能的特点最主要的特点就是数据驱动。在这一代人工智能系统里,往往不需要具备大量的领域知识,只要我们标注了足够多的样本数据,人工智能就能够被低成本的启动,再加上目前我们的神经网络的规模越来越大,上一级的参数都是非常常见的,以及我们GPU算力的极大增强,使得这一代的人工智能技术呢能够非常轻易的处理大数据。

  但是,这一代人工智能技术依然有一些非常严重的局限性。首先基于神经网络的人工智能,它往往具有一个不可解释性的这样的一个特点。另外,我们知道数据驱动往往需要一些非常大规模的样本来去支撑我们的模型训练。

  虽然现在有一些研究方向,比如说迁移学习、小样本学习,能够从一定程度上去解决这样的行业大样本,大量的标注样本缺失的问题,但是他依然没有能够从本质上解决这一代人工智能的一些本质的缺陷,因此它依然是不易推广的。

  从第一代人工智能和第二代人工智能的成就看,我们aI经济进入了一个高速的发展期,我们现在称之为第三代的人工智能,就是把第一代的知识驱动和第二代的数据驱动结合起来的新一代的人工智能。

  在这个阶段,人工智能的三要素除了数据算法和算例,还必须具备更为重要的第4大要素,也就是知识。目前,知识增强驱动的人工智能技术在非常多的领域已经取得了一些比较好的成果,运用前景也非常广泛,比如基于知识增强的多模态语音理解,基于知识增强的大规模预训练语言模型等等。

  第三代人工智能的一个终极目标,就是去真正的模拟人类的行为,让人工智能系统不仅能够接受数学,还要能够掌握知识,可解释督办,安全可信可靠可扩展,以及基于人工智能去实现真正的推力与决策,是这一代人工智能的最主要的特点。

  接下来,让我们把目光从人工智能发展史聚焦到百度的人工智能技术。今年是百度搜索诞生的第20个年头,百度发展人工智能技术也已经有10年了,在过去的十年中,百度搜索引擎一直是各类人工技术净化与落地的主战场,而百度人工智能技术的发展和基础,就是中国规模最大的互联网大数据。

  目前,百度已经拥有万亿互联网的网页内容,其中包括百亿级的视频、音频图像和定位数据,我们汇聚了海量用户的互联网行为数据,深度挖掘了30余个垂直行业,360度的去刻画用户的属性,积累了10亿级的用户的精准画像,让我们每天响应数10亿次的网民诉讼请求。

  在数据总量层面,整个百度拥有数十万台的服务器和一b加级的这个数据存储,在我们服务于中国10亿级网民的搜索引擎这个产品中,我们已经初步实现了数据到知识的转化,以及基于大数据的智能化应用,基于这个规模最大的互联网大数据,我们构建了世界上规模最大的中文知识图谱,除了通用的实体图谱,我们还针对不同的应用场景,以及不同的知识形态,构建了关注点图,并且实现了多元的异构互联。

  同时通过持续的获取知识和积累知识,百度大脑的理解能力和智能化水平也在不断的升级,从而更好的支撑不同的应用场景。那么我们是依靠什么技术来去驱动百度大数据的智能化升级呢?这里我想简要的介绍一下百度知识中台,百度指数中台源于知识图谱,这个曲线呢展示了知识图谱,从2012年百度开始研究到现在的一个发展的历程。那么截止到目前,我们百度的知识图谱已经积累了50亿的实体,5500亿的事实,日均响应400亿次的请求。

  那么行业客户为什么需要知识中台,或者说数据到知识的转换,能够给行业客户带来一些什么样的价值。其实知识中台的提出是基于一个各行各业,在大数据的智能化应用中普遍面临的一个挑战,就是要就是高如何高效的沉淀与利用知识。

  这些挑战主要体现在以下4个层面,第一个层面是知识生产,行业大数据中往往蕴含着非常多的海量的隐性知识,这些隐性知识非结构化率非常高,从数据中去用人工梳理出这些知识成本高效率低。

  第二个层面是知识组织,行业大数据往往面临着系统分制、碎片化和孤岛化的一些现状,数据的形态单一,难以直接的去表达业务的逻辑。

  第三个层面是知识获取,我们直接的从数据出发,内容缺乏理解,信息的获取效率往往是非常低下的。

  最后的层面是智能化应用,简单的依赖传统的大数据技术,已经在很多的智能化的应用方向遇到了一些瓶颈,它的本质原因其实是数据的深层表达能力的缺失,因此行业急需一套面向企业全生命周期的解决方案。

  百度知识中台就是这样一款覆盖企业支持全生命周期的解决方案。所谓的知识全生命周期就是指知识生产、知识组织、知识获取和知识应用,它涵盖了企业内多种模态的数据,包括了用户数据、内容数据和数值数据。这些类型的数据涵盖了我们传统大数据类型的各个方面,同时它提供多场景层次的知识应用能力,比如搜索能力,分析能力和更为高级的决策能力,最终助力企业去汇聚数据凝练知识复能业务,提升企业的核心竞争力。

  百度知识中台从技术层面可以下接企业的数据中台,能够接入企业数据中台中所蕴含的海量结构化、半结构化和无结构化数据。在基础技术层面,能获得百度在人工智能的多项核心积累,包括了知识图谱技术,自然语言处理技术,语音技术、图像技术,然后以及和传统大数据息息相关的数据科学技术。在产品举证层面,能够直接向企业客户提供三个标准化的产品,分别是企业搜索智能知识库和知识图谱决策引擎。

  这三个标准化产品可以由浅入深的满足企业不同场景,不同层次的知识体系构建与智能化的应用需求。从2018年到2020年,,两年来我们已经赋能了众多的行业,比如说在金融行业,我们去做智能客服风控管理,在医疗行业,我们基于知识中台去做医疗临床辅助决策和病案指控,在媒体行业我们基于知识中台去做辅助创作和内容生产,还有政务、教育、司法、办公,其中自然包括最近一年我们重点投入的能源和电力行业。

  目前,能源和电力行业正处在一个大数据智能应用化的一个转型的一个变革期。我们认为,相比于其他行业,能源和电力行业在沉淀知识这个层面面临着更艰巨的挑战。

  首先,是能源行业数据体验,单系统Pb级的数据非常常见,以南方电网为例,就是Pb级的数据系统有10余个,在和百度共建的这个非结构化数据平台中,我们已经目前承载了百Pb级的这个数据。

  其次,是数据种类非常多,能源行业的这个业务形态非常专业,而且知识形态会更加复杂,数据形态有各种边缘设备所产生出的这个数据数据,还有各种业务文档,长期积累的这个海量的文本数据,还有企业在用户和管理经营的过程中所产生的运营数据,最后还有非常多的音频图片和视频等多模态数据,而这些体量大种类多的数据利用率是非常低的,因为其本质原因就是行业尤其是能源电力行业,缺乏一套知识体系建设和智能化应用的解决方案。

  目前,我国大数据的整体利用率只有0.4%,大数据的价值急需被知识化的沉淀和利用。有电网专家分析称,每当大数据的利用率提高10%,我们就能够使电网的利润率提高20%~50%。因此,数据知识化的潜在经济效益是非常大的。

  能源电力行业的应用范围业务范围非常广,我们覆盖到了电力的发输电配用这5大环节,因此对于知识应用的能力层级和覆盖度也提出了更高的要求。我们认为,与能源电力行业相比,其他行业更需要在数据中台之上去建立知识中台,来助力企业实现大数据智能化应用的一个转型,实现由浅入深三个层次的智慧化电力能源应用。

  基于智能知识库,我们可以解决业务检索咨询、电力问答机器人、电力资产管理等类型的业务应用,以及基于更加高级的图谱决策引擎,我们可以深入到电力业务的本质去解决故障,我们现在不在公司啊电力智能调度等等形态的这个业务应用。

  总结起来,能源电力知识中台的业务价值主要体现在以下4个层面,提炼知识价值,打破数据孤岛,降低维护成本和提升运营效率。

  下面,我和大家分享三个过去一年中我们在能源电力行业的一些实践案例,这三个案例分别体现了知识中台的三个标准化产品,在企业知识体系建设与智能化应用中发挥的重要价值。同时,它也印证了从数据到知识的转化,能够给我们企业所带来的效益的三个非常经典的案例。

  第一个案例是依托企业搜索,打造南方电网的自搜。依托知识中台的核心能力,我们助力南网集团公司实现了全业务全类型和是探全时态数据和信息的精准查询便捷获取,这已经在今年7月成功上线。

  在这个项目中,通过系统性的资源建设中,引入了包括业务数据、办公信息、资产信息、材料协同、行业资讯、内容运营等6大数据源的数据,并且对这引入的6大数据源的数据进行了非常系统的知识生产,知识构建和知识应用,服务的人群满足了全集团员工办公和业务搜索的需求。截止到目前,全系统的知识化数据量已经达到4亿家,然后集团内累计用户搜索次数1616万。

  第二个案例,是借助智能知识库来去实现电力投资项目管理分析。智能知识库体现了一个超越搜索的直接知识满足能力。这背后依托的基础就是这种知识平台的技术,能够在智能问答的层面给大家提供更加便利的搜索体验。

  目前百度在搜索产品中,所谓的直接满足率已经达到百分之五十七,在这个项目中,我们就是将这一系列技术,运用到了企业的电力投资项目管理分析的应用过程中。基于这个产品,我们将集团内发电、环保、金融等10余个核心的业务系统来去进行一个知识互联化,打破数据的隔离壁垒,大幅度的提升了集团投资管理效率,降低了这个项目的系统性风险。

  具体而言,在这个项目中,基于支持中台的电力管理投资知识库呢对接集团的大数据平台,融合了集团50%以上的这个业务系统,提供了投资风险分析、项目运营提报、电力客户营销和可视化关联统计等等知识应用能力,全系统的知识问答覆盖率达到80%以上,知识问答的准确率在98%以上。

  最后一个案例,是基于图谱决策引擎来去实现核电设备的故障分析,这是基于知识直接去进行业务的辅助决策的一种形态。在这个项目中初步决策引擎,将数据运营中心中的多种数据,包括了结构化的数据和无结构化的数据,去进行一个系统化的知识图谱的构建,形成了千万级别的设备知识图谱,能够支持上百种的故障分析和诊断模式,为一线操作人员去秒级别的提供故障根因分析与操作步骤建立,从而达成沉淀与传承一线操作人员的经验知识,显著的降低设备误诊率与处理时长,大幅提升现场运维处理效能的目标。

  最后,结合人工智能最新的发展趋势,以及我们对行业需求的洞察,我们认为深度挖掘大数据的价值,将数据到知识的信息的转化,进一步的沉淀为人工智能系统所能消费的知识,是普世性的支持各类人工智能应用目前所最需要攻克的一个难题。

  以上就是我今天分享的全部内容,未来百度知识中台愿意携手更多的能源电力客户与伙伴,用知识来助力电力行业实现智能化的转型,谢谢大家。

  (根据速记整理,未经嘉宾审核)

中国电力网官方微信

      关键词: 电力大数据
评论
用户名:匿名发表  
密码:  
验证码:
最新评论0

主办单位:中国电力发展促进会
网站运营:北京中电创智科技有限公司  国网信通亿力科技有限责任公司
服务热线:400-007-1585      在线投稿
《 中华人民共和国电信与信息服务业务经营许可证 》编号:京ICP证140522号 京ICP备14013100号