编辑:好困
【新智元导读】知识图谱竞赛的世界纪录,又被中国团队刷新了!
近日,素有知识图谱「世界杯」之称的OGBL-wikikg2的比赛结果公布了。
度小满AI-Lab团队强势夺冠,碾压Meta AI实验室FAIR、蒙特利尔Mila实验室等一众国内外顶级AI科研机构,创造了KGE算法新纪录。
地址:ogb.stanford.edu/docs/leader_linkprop/#ogbl-wikikg2
OGB是斯坦福大学发布的国际知识图谱基准数据集,也是图神经网络领域最权威、最具挑战性的「竞技场」,每年都有众多顶级研究机构和企业前来参赛。
TranS强势刷榜,KGE开启新时代
在这场「高手云集」的国际竞赛中,度小满数据智能部AI-Lab团队提出创新性知识图嵌入(KGE)模型TranS,刷新了OGBL-Wikikg2基准数据集最高记录。
该团队表示wikikg2图数据规模巨大,训练迭代时间长,在分数优化空间已接近极限的情况下,他们仅使用V100-16G显存的GPU就打败了其他使用A100-40G的团队。
论文链接:arxiv/abs/2204.08401
在现有成果基础上,度小满提出全新KGE模型,有效地解决了复杂实体关系表示中的瓶颈问题,开启了知识图谱表示学习的新时代。
KGE采用嵌入式思想,通过将实体和关系转化为连续向量的方法,从根本上解决了知识图谱三元组的符号特性难以被操作和使用的问题,是当下最有潜力的研究方向之一。
250万实体,1700万个事实三元组
度小满夺冠榜单为难度颇高的OGBL-wikikg2,该榜单数据来源于Wikidata知识库,涵盖现实世界约250万个实体之间的500多种不同关系,构成了1700多万个事实三元组。
三元组也就是知识图谱结构中的头实体、关系和尾实体,用来表示图结构中实体(节点)与关系(边)的一种事实性符号。参赛团队需要在海量且复杂的事实三元组中精准预测未知实体间的潜在关系,并挖掘出正确的新三元组。
知识图嵌入(KGE)是学习知识图中关系和实体的向量表示方法。现有的KGE方法取得了良好性能,但使用单一关系向量进行学习——将头实体转换为尾实体的方法无法处理较为复杂的关系。
右下角为度小满最新提出的TranS模型
今年年初,度小满AI团队系统性梳理了现有的图表示学习方法,在数据处理和算法优化等方面进行了数以千次的实验后,他们提出了两实体间多样化的关系合成模式,形成了现在的TranS模型。
新模型TranS突破了基于翻译的知识表示学习中传统分数模式,通过实体节点间关系向量的合成与推理提升复杂场景下知识图谱建模的能力,有效地解决了这些问题。
同时,在同一实体对的不同关系表示上,远超TransE、InterHT、TripleRE、TransH、PairRE等现有方法。
AI内功,实力拉满
图神经网络就是图数据与神经网络的结合。其中,图数据可以简单理解为一种独特信息表现形式——图的每个节点看做是一种实体,比如一个用户、一个商品,或者一个事件;图的边则表示不同实体和事件之间的关系。
图数据在现实世界无处不在,高度结构化的图数据形成了庞大的知识图谱,这种知识表示形式,为AI系统提供了可学习的先验知识,能够获得处理复杂任务的能力。因此,图神经网络算法在金融风控领域有着广泛的应用前景。
比如金融风控领域往往依赖于大量的文本信息,而实际上还存在着大量的结构化的知识图谱信息待风控模型使用。对于基于神经网络的风控模型来说,如何将离散的图信息转换成连续的向量表示十分重要。而通过TranS模型可以有效提升图结构中实体和关系的表示效果,进而挖掘潜藏的复杂关系,提升风控模型的准确度与区分度。
庞大数据量,是金融行业AI化的天然优势,但数据的复杂性,多维性,以及隐私等问题也为金融企业带来了不小的挑战。度小满团队表示,图神经网络技术,能够帮助行业降本增效、解决数据孤岛和安全问题,在智能获客、智能风控、智能经营、智能机器人等应用方面发挥着重要作用。
在图神经网络之外,度小满AI Lab在深度学习、计算机视觉、自然语言处理,包括文本向量化、文本分类、信息抽取等方向上也早有布局。
去年3月,该团队凭借DML算法获得MS MARCO国际比赛中文档排序任务的冠军。去年12月,该团队又研发了轩辕 (XuanYuan) 预训练模型,在国际权威测评基准CLUE1.1榜单中「力压群雄」斩获第一,距离人类表现仅差3.38分。
时隔几个月,度小满再次在世界级AI竞赛中夺冠,并不让人意外。
度小满数据智能部总经理杨青表示,未来度小满AI Lab团队将继续围绕知识图谱补全、实体对齐等具体问题展开深入研究,同时兼顾更广义的图网络在金融风控方向的应用,希望通过诸如社交关系、交易关系、地理关系等信息构建的大规模图网络,运用图神经网络等算法提升模型在信用风险评估和反欺诈等方面的使用效果。