java - 自然语言处理 - 将非结构化书目转换为结构化元数据

Question

目前正在从事一个自然语言处理项目，我需要将非结构化参考书目部分（位于研究文章的末尾）转换为结构化元数据，如“年份”、“作者”、“期刊”、“卷 ID”、“页面”编号”、“标题”等。

例如：输入

McCallum, A.; Nigam, K.; and Ungar, L. H. (2000). Efficient clustering of high-dimensional data sets with application to reference matching. In Knowledge Discovery and Data Mining, 169–178

预期输出：

<Author> McCallum, A.</Author> <Author>Nigam, K.</Author> <Author>Ungar, L. H.</Author>
<Year> 2000 </Year>
<Title>Efficient clustering of high-dimensional data sets with application to reference matching <Title> and so on

使用的工具：CRFsuite

数据集：这包含 12000 个引用

包含期刊标题，
包含文章标题的话，
包含位置名称，

给定行中的每个单词都被视为标记，对于每个标记，我得出以下特征

BOR 在行首，
EOR 结束
digitFeature : 如果令牌是数字
年份：如果令牌的年份格式为 19** 和 20**
在当前数据集中可用，

从上面的工具和数据集我得到的准确率只有 63.7%。“标题”的准确性非常低，而“年份”和“卷”的准确性很好。

问题：

我可以绘制任何附加特征吗？
我可以使用任何其他工具吗？

score 2 · Accepted Answer

虽然我通常同意 Nikita 的观点，即任何特定的 CRF 工具集都不是低准确率的根源，而是一个解决方法问题。我不确定 Park 等人证明的两阶段方法虽然在完成时非常准确和有效。是解决您的问题的实用方法。

一方面，本文中提到的“两阶段”是配对的 SVM / CRF，如果这不是您的主要研究领域，那么动态设置就不是那么容易了。它们每个都涉及对标记数据的训练和一定程度的调整。

第二，您的实际数据集（基于您上面的描述）不太可能像此特定解决方案旨在应对同时仍保持高精度的不同结构。在这种情况下，不需要这种级别的监督学习。

如果我可以提出一个具有许多相同功能的领域特定解决方案，并且应该更容易在您使用的任何工具中实现，我会尝试一种（受限）语义树方法，即半监督，特别是异常（错误) 建议。

你有一个书目条目，而不是一个英文句子作为你的数据分子。这个分子中必须存在的部分有作者部分、标题部分、日期部分和出版者部分，还可能有其他数据部分（页码、Vol. Id 等）。

由于其中一些部分可能相互嵌套（例如，发布者部分中的页面#）或以不同的排列顺序嵌套，但在操作上仍然有效，因此它是使用语义树的一个很好的指标。

此外，每个领域虽然变量具有独特的特征：作者部分（个人姓名格式，例如 Blow、J. 或 James 等）；标题部分（引用或斜体，具有标准句子结构）；日期部分（日期格式，包含在 () 中等），意味着与标记化和非结构化分析相比，您需要更少的整体培训。到底这个少学习为你的程序。

此外，还可以学习一些结构关系以提高准确性，例如：日期部分（通常在末尾或分隔关键部分）、作者部分（通常在开头，或者在标题之后）等。这进一步得到了支持事实上，许多协会和出版商都有自己的方式来格式化这些参考，这些可以很容易地通过关系学习，而不需要太多的训练数据。

因此，总而言之，通过分割部分并进行结构化学习，您正在减少每个子部分中的模式匹配，并且学习被归为更可靠的关系模式，因为这就是我们构建人类条目的方式。

还有大量用于这种特定领域语义学习的工具

http://www.semantic-measures-library.org/ http://wiki.opensemanticframework.org/index.php/Ontology_Tools

希望有帮助:)

score 2 · Accepted Answer

我建议以现有方法为基础的解决方案。看看这篇论文的例子

Park、Sung Hee、Roger W. Ehrich 和 Edward A. Fox。“从参考文献中提取独立于学科的规范表示的混合两阶段方法。” 第 12 届 ACM/IEEE-CS 数字图书馆联合会议论文集。ACM，2012 年。

第 3.2 节和第 4.2 节提供了几十个特性的描述。

至于 CRF 实现，还有其他类似的工具，但我不认为它是低准确率的原因。

java - 自然语言处理 - 将非结构化书目转换为结构化元数据

2 回答 2

Related

Reference