2020WAIC明略科技吴信东深度解读知
北京中科参与健康管理与商业医疗保险论坛 http://baidianfeng.39.net/a_cjzz/180416/6169853.html年7月11日,世界人工智能大会WAIC·开发者日:开发·开源·社区主题论坛召开,全球有影响力的图灵奖得主、顶级技术专家和开发者代表云聚一堂,对当下人工智能前沿理论技术和开发实践进行深度解读。明略科技首席科学家、明略科学院院长吴信东受邀发表主题演讲,分享知识图谱自动构建的方法论和实践,并宣布明略科技HAO图谱开放Text2KGAPI能力,赋能开发者和企业级用户。数据图谱不是知识图谱吴信东认为,大多数情况下,我们所说的、所用到的图谱并没有后台知识,只是数据图谱,而不是知识图谱。知识图谱应该有三个组成部分,首先是概念,即图谱的节点。概念跟概念之间是连接,是关系,即图谱的边。只有概念和关系还不够,还需要背景知识解释概念,和连接的语义。如果只有概念、关系,是数据图谱,而不是具有背景知识的知识图谱。从数据图谱到知识图谱的构建,可分成三个阶段。第一阶段,人工阶段。对当前问题充分理解,把概念、关系形成节点和边,用计算机程序的方式进行连接、沟通。第二阶段,众包构建。当实体太多,关系类型非常复杂时,需要涉及到群体,形成分布式的开发环境进行集成。第三阶段,自动构建。自动构建,始于美国的华盛顿大学,卡内基梅隆大学,Google的一些早期项目,采取计算机辅助,做自动融合、自动容错的检测机制。知识图谱的构建,首先要有数据来源。数据类型可分成结构化数据,例如,表格数据,一个成型的数据库,关系型数据库,或者其他层次化的数据;非结构化数据,包括新闻网页,手写的字段,图片,视频,中间可能是根据需要、场景采集到的数据片段;半结构化数据,例如,网络文章,虽然不是完全结构化的,但一般而言都有标题、作者、摘要,分段落以及结束语,所以具备一定的形式,即半结构化数据。知识图谱的构建,要考虑到三种不同的数据类型。其中,非结构化数据,由于语言、描述形式呈现了多样性或灵活性,因此抽取实体、语义关系是知识图谱自动构建面临的挑战。具体而言,信息抽取,需要判断哪些信息的短语、动词是和知识图谱构建相关的。知识融合,需要把每个句子里面存储的不同片段的信息,形成一个整体,所形成的描述形式用于其他的知识处理。无论是从信息抽取做知识融合,还是做知识处理,最核心的三部分,一是实体涉及到的名词,二是涉及到中间的关系,三是实体和关系之间,可能有同名,有共线(Co-references),如何冲突消解。知识图谱的构建方法图谱构建主要有三大挑战:第一,在构建中间可能做了一些信息搜索;第二,后台的知识库可能做了一些信息冗余;第三,随着时间和空间的变化,信息要进行更新迭代。那么,如何构建知识图谱?方法主要有四大类。第一类是逻辑建模,用逻辑描述所要抽取的知识图谱包含了哪些概念、关系和背景知识。目前,大多数知识图谱都是逻辑+概率。逻辑,是名词跟名词的关系。当涉及到日常生活、社会经济系统,这些名词的关系不是确定的,所以要加上概率的描述方式。概率+逻辑,通常是用来描述知识图谱的第一种技术手段。其中涉及到一些技术问题,如,逻辑变量、逻辑规则,当量非常大时,使用马尔可夫逻辑网对问题进行简化处理。对问题求解
上一篇文章: 昆明峰会参会嘉宾张韦力零跑汽车高级副总 下一篇文章: 万向思维教育考试论坛第198期数学
转载请注明:http://www.abuoumao.com/hyls/6865.html