5

我需要一个解析器来扫描学术文本、提取引文并将这些引文解析为其组成部分(作者、标题、出版日期等)。

我已经尝试过 Paracite,但它速度非常慢,并且不会产生高质量的结果。

任何语言都可以,但首选 Java。

4

5 回答 5

5

看看ParsCit

这是 ParsCit 项目的主页,它执行两个任务:1)参考字符串解析,有时也称为引文解析或引文提取,以及 2)科学文档的逻辑结构解析。它被构建为使用条件随机场作为其学习机制的监督机器学习过程。您可以下载下面的代码、在线解析字符串或将批处理作业发送到我们的 Web 服务。该代码包含用于将系统连接到 Web 服务(在此网站上使用)的训练数据、特征生成器和 shell 脚本。

于 2011-09-16T11:53:20.100 回答
2

我们最近遇到了类似的问题,最终基于 ParsCit 编写了我们自己的解析器,但使用 Wapiti 而不是 CRF++ 作为条件随机字段模型。就像 Mike 上面提到的那样,基于 ML 的解析器的问题在于获得良好的标记训练数据。为此,我们编写了一个可视化编辑器,让您可以标记结果(并将它们保存为训练数据)。这种方法非常适用于解析书目。

如果有人感兴趣,我们在anystyle.io上提供了解析器和编辑器。

于 2014-05-20T10:12:41.577 回答
1

项目列表在这里: https ://forums.zotero.org/discussion/1211/

Cb2bib 使用正则表达式http://www.molspaces.com/cb2bib/

Citeseer 使用大量作者姓名和标题。你可以看看他们的出版物列表

这是一个项目,但在 python 中: https ://code.google.com/p/pdfssa4met/

另请参阅这些 stackoverflow 问题:*从研究论文的 PDF 中提取信息

于 2013-10-05T15:48:09.080 回答
1

You can also try this little tool for parsing academic citations into fields:

http://citationparser.com

Citationparser.com is still beta but the 2017 version is working well especially for Journal Articles but also for Monographs and Book Chapters.

The list doesn't have to be in ONE style, but can be a mixture of different official or unofficial styles

You can walk through the references and check for fulltext or you can EXPORT as Endnote File (.ENL). I developed this tool only for smaller Lists of hundreds of titles. If you paste a list with more than 1000 titles it will run much slower.

于 2017-01-16T12:43:07.640 回答
0

您可以尝试查看像Lucene这样的索引/搜索库

于 2011-09-16T11:38:55.137 回答