目前正在从事一个自然语言处理项目,我需要将非结构化参考书目部分(位于研究文章的末尾)转换为结构化元数据,如“年份”、“作者”、“期刊”、“卷 ID”、“页面”编号”、“标题”等。
例如:输入
McCallum, A.; Nigam, K.; and Ungar, L. H. (2000). Efficient clustering of high-dimensional data sets with application to reference matching. In Knowledge Discovery and Data Mining, 169–178
预期输出:
<Author> McCallum, A.</Author> <Author>Nigam, K.</Author> <Author>Ungar, L. H.</Author>
<Year> 2000 </Year>
<Title>Efficient clustering of high-dimensional data sets with application to reference matching <Title> and so on
使用的工具:CRFsuite
数据集:这包含 12000 个引用
- 包含期刊标题,
- 包含文章标题的话,
- 包含位置名称,
给定行中的每个单词都被视为标记,对于每个标记,我得出以下特征
- BOR 在行首,
- EOR 结束
- digitFeature : 如果令牌是数字
- 年份:如果令牌的年份格式为 19** 和 20**
- 在当前数据集中可用,
从上面的工具和数据集我得到的准确率只有 63.7%。“标题”的准确性非常低,而“年份”和“卷”的准确性很好。
问题:
- 我可以绘制任何附加特征吗?
- 我可以使用任何其他工具吗?