记阿里人工智能研讨会

题外话

之前没有了解过知识图谱,同样也是第一次参加研讨会。 总体而言,研讨会能够快速,高效地了解到学术界目前的研究方向。

Background

知识图谱,简而言之,就是以三元组代表(HeadEntity, Relationship, TailEntity)头实体,尾实体以及它们之间的关系。

知识图谱(Mapping Knowledge Domain)也被称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。

Google知识图谱Wiki

其他代表知识库:

  1. WordNet
  2. Freebase

目前研究方向

分布式表示学习(distributed representation, embeddings)

主要研究思路: 将知识图谱嵌入到低维向量空间
  • 实体和关系都表示为低维向量
  • 有效表示和度量实体、关系间的语义关联

知识表示代表模型:

对每个事实(head, relation, tail),将relation看做从head到tail的翻译操作。

训练的优化目标为: h + r = t

此外还有Neural Tensor Network(NTN)以及Energy Model。 NTN Energy Model

表示学习在处理一对多、多对一、多对多的关系时,不能较好的处理。当出现多个结果时,每个结果的权重相当。

在TransE的基础上考虑关系对实体的影响

有以下两个典型的算法:

  • TransH
  • TransR

TransH TransR

Path Ranking

关系路径的表示学习: Recursive Neural Network(RNN)

考虑了关系路径的TransE算法为PTransE:

relation之间的组合语义,通常包括 ADD, MULTIPLY, RNN

通常关系之间的每个组合,需要单独训练一个目标函数。 在大规模复杂的知识图谱中,目标函数也会呈现指数级增长。

Probabilistic Graphical Models

这个算法,由于落地难的问题,大家都没有讲=.=

王志春-讲解了规则学习的几个方法:

  • 归纳逻辑程序设计 ILP
  • 类似数据挖掘中的关联规则
  • 关系路径
  • 分布式表示

韩先培-介绍了相关无监督语义关系抽取:

  • bootstrapping
  • distant supervision
  • Open IE(Stanford OpenIE)

写在最后

刘知远讲解的TransE非常的Solid,而且开源了算法实现https://github.com/thunlp/KG2E

王泉研究员,我只能献上我的膝盖了,语速很快,思路无敌清晰。简简单单的一个slide就能把当前知识图谱的研究方向洋洋洒洒的讲出来。

最后附上 刘知远的 ppt 大规模知识图谱的表示学习