0

我正在研究作者姓名消歧问题。我想做一些实验。我想对引文记录进行聚类。我需要训练数据和测试数据,其中每个出版物记录的真实作者都可用。有许多书目数据库,如 DBLP、Medline 和 Pubmed 等。我对测试阶段感到困惑。将 DBLP 分为训练和测试是否是一种好习惯?DBLP 引文记录是手动添加的吗?我可以保证每条引文记录都分配给 DBLP 中的真实作者吗?对培训和测试数据库有什么建议吗?注意:在文献中,我注意到在一些论文中,他们使用 Pubmed 进行培训,使用 DBLP 进行测试,尽管第一个用于医学出版物,第二个用于计算机。

4

1 回答 1

0

以下是我对您的问题的看法:

我对测试阶段感到困惑。将 DBLP 分为训练和测试是否是一种好习惯?

使用的做法是将数据拆分用于训练和测试。但是,最好确保每个测试样本都存在训练样本。

DBLP 引文记录是手动添加的吗?我可以保证每条引文记录都分配给 DBLP 中的真实作者吗?

根据本文,DBLP 引文记录是手动添加的。 https://clgiles.ist.psu.edu/papers/ECDL-2005-Citation-Databases.pdf

对培训和测试数据库有什么建议吗?

ANDDataset1 已在某些工作中用于此类任务 https://sites.google.com/site/tinhuynhuit/dataset

你也可以试试 KDD Cup 2013 - Author Disambiguation Challenge https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/data

于 2016-10-26T10:40:27.767 回答