1

伙计们,我正在对 DBLP 进行一些研究,并使用 Hugh Glaser 的存储库 RKB-EXPLORER DBLP(rdf/xml)。考虑 dblp 中一篇文章的这一页:

http://dblp.rkbexplorer.com/id/journals/jvcir/YuanWSZ13

如您所见,这篇文章的作者ID是这样的:

http://dblp.rkbexplorer.com/id/people-b3f641eef09c498bdd94087b74854be9-36a6b8e7b69947e5659953aaf7fb802c

我用不同的文章尝试了相同的作者姓名,并且知道上面的 id 详细信息如下:

b3f641eef09c498bdd94087b74854be9:作者姓名的 32 个字符编码。(没关系) 36a6b8e7b69947e5659953aaf7fb802c:文章名称的 32 个编码。

所以,它实际上给“同名”的人提供了相同的 id,但很多人的名字完全相同。这是歧义。对于 dblp 作者消歧,我尝试了以下两种方法:

  1. 获取每篇文章的隶属关系,然后如果相同的名字出现在两个具有相同隶属关系的文章中。我想这可以肯定是同一个人。但困难在于 dblp.rkbelporer.com 数据集没有提供足够的信息。并使用谷歌搜索搜索文章标题,也无法获得足够的信息。
  2. 获取每篇文章的所有作者图片,并进行个人图片匹配之类的操作,以检查同名是否为同一个人。但这也是某种不太可行的方法,因为作者个人图片的文章太少了。

那么,有什么建议吗?非常感谢。

4

0 回答 0