在社交网络中,有这样一条著名的“六度分隔理论”:
“最多通过五个人,你就能够认识世界上的任何一个陌生人。”
“六度分隔理论”背后的知识图谱就是帮助社交网络连接每个人的“黑科技”。知识图谱以实体概念(例如人)为节点,以关系为边,以可视化的图形展示直观地呈现人们的社交关系。目前这一技术已在搜索、金融等领域得到了很好的应用。
那么,如果将上述知识图谱中的“人”改为“事”,又会有怎样的变化?
明略科技集团首席科学家和明略科学院院长吴信东教授的回答是,传统的知识图谱回答的是“是什么”的问题,而以“事”为核心的事理图谱回答的是“为什么”的问题。目前,绝大多数知识图谱主要以实体(特别是人名)为基础,面向事件知识图谱研究的语料构建和研究方法还处于探索阶段。
吴信东
“知识图谱的关注点从‘知识’到‘事件’,这代表了目前知识图谱自动构建领域的日渐成熟,单一的静态事实类图谱构建模型已经不能满足业界的需求,产业界对动态事理图谱以及其他更深层次的语义理解技术有着迫切的关注。”吴信东告诉AI科技评论。
事件关系抽取:让静态知识动起来
知识图谱的概念由Google于2012年提出,最早被搜索引擎用基于实体的搜索来代替基于字符串的搜索,从而提升用户搜索质量与体验。在大数据时代,知识图谱以结构化的形式将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。
构建知识图谱的前提与核心条件是知识获取。具体来说,这一过程需要将现实世界中的各类“信息”转换为“知识”并表达成计算机可存储和计算的结构,再进一步形成“图谱”。早期的知识图谱构建大量依赖于人力分类,如维基百科采取“众包”的方式,让网民成为知识的贡献者,从而加快了知识图谱的累计速度。
但在大数据时代,手工劳动已经不能适应知识图谱的构建需求。不少企业开始积极探索和尝试自动化构建技术,利用机器从不同来源、不同结构的数据中进行抽取,形成知识存入到知识图谱。而在产业实践中,通过文本信息等非结构化数据中提炼知识构建知识图谱,技术上面临很多挑战。
而这也正是数据挖掘顶会 ICDM 从 2019 年开始举办知识图谱大赛的原因。
“知识图谱是一个明略的技术特长,明略认为有这个义务为促进知识图谱的学术研究以及产业实践的联动与交流出一份力。”2019 年的 ICDM 在北京举办,作为会议的发起人、数据挖掘领域领军人物吴信东教授从会议之初一路相随,在本届会议上,吴信东教授不仅担任大会主席,并推动设立了首届知识图谱大赛,使之成为知识图谱学术与产业交流的重要平台。
ICDM 2019 知识图谱大赛的主题是自动生成知识图谱,而 2020 年的竞赛主题“事件原因抽取”则更贴近产业应用。任务是解决场景营销的一大痛点,即如何智能分析与提取与消费者行为相关的内容场景及关系知识,以数据挖掘、机器学习、NLP等技术建立模型,从文本中智能提取出消费者事件的因果关系。
据 ICDM 2020 知识图谱大赛联席竞赛主席、中科院自动化所研究员刘康教授介绍,事件关系抽取是信息抽取任务中较难的任务。相较于实体关系抽取,事件关系抽取需要判断两个事件之间的关系,而事件在文本中的描述通常比较复杂,有可能是一句话或者多句话。
刘康
此外,事件抽取任务侧重于事件类型的判断以及事件元素的抽取,属于单个事件内部的语义识别;而事件关系侧重于不同事件之间错综复杂关系语义识别,更准确的事件抽取能提升事件关系的性能。
据AI科技评论了解,本届知识图谱大赛比赛数据使用真实、公开的用户消费评论数据,存在数据质量差、多种语言、格式不统一等问题,增大了赛题的挑战难度。
这也是业界在知识图谱应用中需要解决的问题:知识图谱的节点是偏静态描述的实体,而事件偏动态。与实体相比,事件能够更加清晰、精确表示发生的各种事实信息;而人类的命题记忆是以“事件”为存储单位的,真实的消费评论所体现的也正是这样一种动态信息。让机器能够以一种更为接近于人脑知识结构体系的方式来处理知识和进行推理,有助于机器更好地理解复杂场景下的具体问题,为用户提供更好的体验。
换言之:让知识图谱中的知识“动起来”,不仅是学术界研究更好实现人工智能的手段,也是产业界为客户提供更智能化的服务、提升服务质量、降低成本的需求。
2020 年的知识图谱大赛共吸引了 45 个国家的 2000 多支队伍参与,北京大学、清华大学、中国科学院、香港中文大学、康奈尔大学、国立新加坡大学等著名高校及阿里巴巴、腾讯、华为、百度、京东等企业均参与其中。
那么,事件关系提取又能在哪些方面帮助企业提升业务水平?
事件关系提取的作用
刘康教授告诉AI科技评论,在知识图谱领域,学术界和企业界联系十分紧密,相关技术在企业中有丰富的应用场景,这也使得学术界在研究理论的同时注重技术、场景的实际落地,在本次赛题命题中,命题专家同样很好地考虑到了这一点。
以参赛企业京东为例,利用知识图谱可以自动整理行业和企业数据,形成金融数据库,帮助金融机构形成差异化竞争优势。知识图谱也服务于京东金融App支持各个业务线的销售对话机器人,为智能问答系统提供了推理问答,逻辑判断问答,查询问答等功能。
除了行业和企业的应用,提取消费者事件的原因在内容广告、社交监听等许多业务场景中都是关注的焦点。以内容广告为例,如今的广告主更喜欢通过产品功能嵌入内容,以潜移默化的方式将自己的品牌或产品与任意的消费事件联系起来。为此,明确地提取消费者事件的原因成为构建这样一个满足广告商需求的系统的重要技术。
尽管知识图谱技术在产业界正经历着应用的高速增长,学术领域前沿成果与实际落地应用场景间依然存在着巨大的鸿沟。对于大多数企业来说,他们并不具备像京东一样,利用知识图谱中的事件关系改善自身业务的能力。
“基于事理图谱的应用已经在多个行业中涌现,比如营销、金融、工业等。”吴信东教授告诉AI科技评论,明略科技在帮助企业推进基于事理图谱的应用有足够多的构想和实践。
“比如在明略的实践中,使用事件抽取技术识别舆情中的热点事件,将不同新闻中提到的同一事件进行聚合、统计热度,以气泡图等方式对事件发展趋势进行可视化,从而指导营销文案的自动撰写、垂直领域报告的自动生成等。”
在金融行业,明略科技与浦发银行合作,共同推动金融认知工程方法论研究与理论体系创建,在产融生态合作中不断完善金融认知智能体系,构建国内领先的认知智能平台基础设施,提升用户洞察、感知互动等能力。在工业领域,明略也广泛地在轨道交通等多个行业的智能维保与故障归因场景上有着深入的探索。
除此之外,明略科技也在基于大数据和AI技术构建行业知识图谱。知识图谱的自动构建是明略的核心技术之一,2020 年 7 月在 2020 WAIC 世界人工智能大会期间,明略科技推出了目前世界上第一个语音实时生成图谱的企业级知识图谱开发工具包 HAO 图谱,HAO 正在做到:专家在台上讲话,后台图谱系统可自动同步构建知识图谱。
据介绍,HAO 图谱可以独立运行,也可交付给企业技术团队进行二次开发,帮助用户及中小微企业提供全方位服务。目前 HAO 图谱已在数字城市、金融、工业、广告营销等多个场景中落地。
“HAO 治理”模型架构图
对企业而言,知识图谱的构建可以帮助企业连接内部结构化数据、物联网数据、外部非结构化数据,进而可能成为下一代企业管理数据的主流技术路线;而明略科技也将结合在知识图谱事件抽取领域的新动向,帮助企业实现知识图谱和数据管理的升级。
知识图谱的未来
虽然知识图谱在产业界已经得到了一定的应用,但刘康教授认为,从学术研究的角度,现在知识图谱的研究正处于快速发展初期,并从传统的以实体为核心向事件等复杂结构知识为核心转变。
“显著的图谱有可能出现在和预训练语言模型的结合上,目前以 BERT 为代表的预训练语言模型正在各个 NLP 任务中发力,这些主要得益于大数据和算力的进步,但是此类模型中到底蕴含哪些知识类型,以及如何用知识图谱显示提升预训练语言模型的表示能力有可能会取得比较显著的突破。”谈及未来知识图谱的发展趋势,刘康教授如是说。
从根本上说,从实体到事件的核心转变并不会改变基于知识图谱的人工智能推理的技术本质,其核心挑战还是在图谱上搜索最优解所面临的组合爆炸困境。近年来如 BERT、GPT-3 等大规模预训练语言模型的出现,也为解决事理图谱的组合爆炸困境提供了新的方法。
而在 2020 知识图谱竞赛中,我们也看到了不同队伍的技术处理方案。如京东引入了一种全新的视角来重新审视关系行为原因提取任务,并提出了一种新的序列标记框架,而不是单独提取行为类型和行为原因;获得第二名的日本选手则是使用 GAN 完成了本次任务,通过 GAN 的生成方式增加训练样本,同时对 GAN 生成的数据标注为 Fake,在原有五种时间类型的基础上,增加 Fake 标签进行预测。
刘康教授认为,未来知识图谱领域研究可能是向多模态、复杂结构知识和领域化发展。其中,如何表示各种类型的知识?如何抽取常识知识?如何结合多模态信息进行复杂结构知识的自动获取?都是他认为比较有意思的研究问题。
吴信东教授认为,知识图谱从静态知识描述走向动态问题求解是知识图谱走向实际应用的重要发展方向,事理图谱可以接入问题求解的动态信息,为知识图谱的推理插上一个动态翅膀。
作为人工智能技术中的知识容器和孵化器,知识图谱会对未来 AI 领域的发展起到关键性的作用。无论是基于实体的传统知识图谱还是事件的新一代知识图谱,其构建技术的发展和对应用场景的探索仍然会不断的持续下去,在此过程中,知识图谱构建技术会朝着越来越自动化方向前进,同时在以明略为代表的 AI 和大数据公司推动下,知识图谱也会在越来越多的领域找到能够真正落地的应用场景,在各行各业中解放生产力,助力业务转型。