database - 作者姓名消歧数据

Question

我正在研究作者姓名消歧问题。我想做一些实验。我想对引文记录进行聚类。我需要训练数据和测试数据，其中每个出版物记录的真实作者都可用。有许多书目数据库，如 DBLP、Medline 和 Pubmed 等。我对测试阶段感到困惑。将 DBLP 分为训练和测试是否是一种好习惯？DBLP 引文记录是手动添加的吗？我可以保证每条引文记录都分配给 DBLP 中的真实作者吗？对培训和测试数据库有什么建议吗？注意：在文献中，我注意到在一些论文中，他们使用 Pubmed 进行培训，使用 DBLP 进行测试，尽管第一个用于医学出版物，第二个用于计算机。

score 0 · Accepted Answer

以下是我对您的问题的看法：

我对测试阶段感到困惑。将 DBLP 分为训练和测试是否是一种好习惯？

使用的做法是将数据拆分用于训练和测试。但是，最好确保每个测试样本都存在训练样本。

DBLP 引文记录是手动添加的吗？我可以保证每条引文记录都分配给 DBLP 中的真实作者吗？

根据本文，DBLP 引文记录是手动添加的。 https://clgiles.ist.psu.edu/papers/ECDL-2005-Citation-Databases.pdf

对培训和测试数据库有什么建议吗？

ANDDataset1 已在某些工作中用于此类任务 https://sites.google.com/site/tinhuynhuit/dataset

你也可以试试 KDD Cup 2013 - Author Disambiguation Challenge https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/data

database - 作者姓名消歧数据

1 回答 1

Related

Reference