博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment
阅读量:4203 次
发布时间:2019-05-26

本文共 1324 字,大约阅读时间需要 4 分钟。

Zhuang Y,Li G, Zhong Z, et al. Hike: A Hybrid Human-Machine Method for Entity Alignmentin Large-Scale Knowledge Bases[C]// ACM, 2017:1917-1926. ( CIKM 2017 )

 

论文链接http://dbgroup.cs.tsinghua.edu.cn/ligl/crowdalign.pdf

 

Motivation

随着语义网络的迅速发展,越来越多的大规模知识图谱公开发布,为了综合使用多个来源的知识图谱,首要步骤就是进行实体对齐(Entity Alignment)。近年来,许多研究者提出了自动化的实体对齐方法,但是,由于知识图谱数据的不均衡性,导致此类方法对齐质量较低,特别是召回率(Recall)。因此,可考虑借助于众包平台提升对齐效果,文章提出了一个人机协作的方法,对大规模知识图谱进行实体对齐。

Framework

方法主要流程如图所示:

首先,通过机器学习方法对知识库进行粗略的实体对齐,然后分别将以对齐实体对(MatchedPairs)和未对齐实体对(UnmatchedPairs)放入众包平台,让人进行判断。两条流水线的步骤类似,主要包括四个部分:实体集划分(EntityPartition)、建立偏序(PartialOrder Construction)、问题选择(QuestionSelection)、容错处理(ErrorTolerance)

实体集划分的目的是将同类的实体聚类到一个集合,实体对齐只在集合内部进行,集合之间不进行对齐操作。实体集划分的依据是属性,通常同一类实体的属性是相似的。

偏序定义如下:

建立偏序的目的在于找出最具有推理期望(InferenceExpectation)的实体对,偏序集实例如下

其中,如果P11被判断为Unmatch,则所有偏序小于P11的节点都可以推断为unmatch。反之,如果P45被推断为Match,则所有偏序大于P45的节点都可以推断为Match

推理期望公式如下:

其中,presuc分别表示前驱和后继节点。

对于问题选择,文章提出了两个贪心算法,分别为一次选一个节点以及一次选多个节点。算法如下:

Experiment

数据集:Yago DBPedia

对比方法:PARISPBA

众包平台:ChinaCrowds

评估问题选择方法:

可以看到,两个贪心算法差别不大,但是比随机选择性能好。

评估问题集大小:

随着问题集合的增加,精确率、召回率、F值均有提升。

评估实体对齐结果:

实验表明,各项评估指标具有提升,证实了人机协作的有效性,但是MQS算法复杂度太高,导致运行时间过长。

 

本文作者:罗丹,浙江大学硕士,研究方向:机器学习,知识图谱。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

点击阅读原文,进入 OpenKG 博客。

你可能感兴趣的文章
资源监控工具 - Hyperic HQ
查看>>
LoadRunner中Concurrent与Simultaneous的区别
查看>>
SiteScope - Agentless监控
查看>>
QTP的智能识别(Smart Identification)过程
查看>>
LoadRunner各协议所需耗费的内存资源表
查看>>
AutomatedQA收购Smart Bear?
查看>>
使用QTP进行WEB页面性能测试
查看>>
LoadRunner的VS.NET 2005插件
查看>>
LoadRunner中如何验证下载的文件大小、统计下载时间、度量下载速度?
查看>>
LoadRunner脚本评审Checklist
查看>>
在LoadRunner中设置HTTP请求time-out的时间
查看>>
在LoadRunner脚本中实现随机ThinkTime
查看>>
LoadRunner9.51中文帮助手册
查看>>
RPT录制问题
查看>>
RPT8.0
查看>>
RPT8.1新特性
查看>>
LoadRunner测试AJAX
查看>>
LoadRunner测试GWT
查看>>
负载测试项目成功的5个关键要素
查看>>
LoadRunner性能测试培训大纲
查看>>