9

目前正在从事一个自然语言处理项目,我需要将非结构化参考书目部分(位于研究文章的末尾)转换为结构化元数据,如“年份”、“作者”、“期刊”、“卷 ID”、“页面”编号”、“标题”等。


例如:输入

McCallum, A.; Nigam, K.; and Ungar, L. H. (2000). Efficient clustering of high-dimensional data sets with application to reference matching. In Knowledge Discovery and Data Mining, 169–178

预期输出:

<Author> McCallum, A.</Author> <Author>Nigam, K.</Author> <Author>Ungar, L. H.</Author>
<Year> 2000 </Year>
<Title>Efficient clustering of high-dimensional data sets with application to reference matching <Title> and so on

使用的工具:CRFsuite


数据集:这包含 12000 个引用

  1. 包含期刊标题,
  2. 包含文章标题的话,
  3. 包含位置名称,

给定行中的每个单词都被视为标记,对于每个标记,我得出以下特征

  1. BOR 在行首,
  2. EOR 结束
  3. digitFeature : 如果令牌是数字
  4. 年份:如果令牌的年份格式为 19** 和 20**
  5. 在当前数据集中可用,

从上面的工具和数据集我得到的准确率只有 63.7%。“标题”的准确性非常低,而“年份”和“卷”的准确性很好。

问题:

  1. 我可以绘制任何附加特征吗?
  2. 我可以使用任何其他工具吗?
4

2 回答 2

2

虽然我通常同意 Nikita 的观点,即任何特定的 CRF 工具集都不是低准确率的根源,而是一个解决方法问题。我不确定 Park 等人证明的两阶段方法虽然在完成时非常准确和有效。是解决您的问题的实用方法。

一方面,本文中提到的“两阶段”是配对的 SVM / CRF,如果这不是您的主要研究领域,那么动态设置就不是那么容易了。它们每个都涉及对标记数据的训练和一定程度的调整。

第二,您的实际数据集(基于您上面的描述)不太可能像此特定解决方案旨在应对同时仍保持高精度的不同结构。在这种情况下,不需要这种级别的监督学习。

如果我可以提出一个具有许多相同功能的领域特定解决方案,并且应该更容易在您使用的任何工具中实现,我会尝试一种(受限)语义树方法,即半监督,特别是异常(错误) 建议。

你有一个书目条目,而不是一个英文句子作为你的数据分子。这个分子中必须存在的部分有作者部分、标题部分、日期部分和出版者部分,还可能有其他数据部分(页码、Vol. Id 等)。

由于其中一些部分可能相互嵌套(例如,发布者部分中的页面#)或以不同的排列顺序嵌套,但在操作上仍然有效,因此它是使用语义树的一个很好的指标。

此外,每个领域虽然变量具有独特的特征:作者部分(个人姓名格式,例如 Blow、J. 或 James 等);标题部分(引用或斜体,具有标准句子结构);日期部分(日期格式,包含在 () 中等),意味着与标记化和非结构化分析相比,您需要更少的整体培训。到底这个少学习为你的程序。

此外,还可以学习一些结构关系以提高准确性,例如:日期部分(通常在末尾或分隔关键部分)、作者部分(通常在开头,或者在标题之后)等。这进一步得到了支持事实上,许多协会和出版商都有自己的方式来格式化这些参考,这些可以很容易地通过关系学习,而不需要太多的训练数据。

因此,总而言之,通过分割部分并进行结构化学习,您正在减少每个子部分中的模式匹配,并且学习被归为更可靠的关系模式,因为这就是我们构建人类条目的方式。

还有大量用于这种特定领域语义学习的工具

http://www.semantic-measures-library.org/ http://wiki.opensemanticframework.org/index.php/Ontology_Tools

希望有帮助:)

于 2015-09-04T03:52:11.950 回答
2

我建议以现有方法为基础的解决方案。看看这篇论文的例子

Park、Sung Hee、Roger W. Ehrich 和 Edward A. Fox。“从参考文献中提取独立于学科的规范表示的混合两阶段方法。” 第 12 届 ACM/IEEE-CS 数字图书馆联合会议论文集。ACM,2012 年。

第 3.2 节和第 4.2 节提供了几十个特性的描述。

至于 CRF 实现,还有其他类似的工具但我不认为它是低准确率的原因。

于 2015-08-28T16:57:59.637 回答