我正在研究作者姓名消歧问题。我想做一些实验。我想对引文记录进行聚类。我需要训练数据和测试数据,其中每个出版物记录的真实作者都可用。有许多书目数据库,如 DBLP、Medline 和 Pubmed 等。我对测试阶段感到困惑。将 DBLP 分为训练和测试是否是一种好习惯?DBLP 引文记录是手动添加的吗?我可以保证每条引文记录都分配给 DBLP 中的真实作者吗?对培训和测试数据库有什么建议吗?注意:在文献中,我注意到在一些论文中,他们使用 Pubmed 进行培训,使用 DBLP 进行测试,尽管第一个用于医学出版物,第二个用于计算机。
问问题
570 次
1 回答
0
以下是我对您的问题的看法:
我对测试阶段感到困惑。将 DBLP 分为训练和测试是否是一种好习惯?
使用的做法是将数据拆分用于训练和测试。但是,最好确保每个测试样本都存在训练样本。
DBLP 引文记录是手动添加的吗?我可以保证每条引文记录都分配给 DBLP 中的真实作者吗?
根据本文,DBLP 引文记录是手动添加的。 https://clgiles.ist.psu.edu/papers/ECDL-2005-Citation-Databases.pdf
对培训和测试数据库有什么建议吗?
ANDDataset1 已在某些工作中用于此类任务 https://sites.google.com/site/tinhuynhuit/dataset
你也可以试试 KDD Cup 2013 - Author Disambiguation Challenge https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/data
于 2016-10-26T10:40:27.767 回答