0

我需要从大量文本中提取日期。语言越多越好;至少英语、西班牙语和葡萄牙语。这样的工具存在吗?在 Java 和 Mavenized 中?这是我发现的:

我还应该去哪里看?

4

2 回答 2

0

我一直在研究一个类似的话题。那里没有太多文档,但我会分享我发现的内容。

UIMA 本质上是一个在分析管道中将程序(“注释器”)粘合在一起的框架。当非结构化数据流经管道时,注释器提取有用位并将其写入称为通用分析结构 (CAS) 的数据对象。

UIMA 管道在 Java 中实现,因此在 JVM 中运行。用其他语言编写的工具,例如 Perl,可以通过适当的包装器引入管道。

管道可以在 MapReduce 映射任务中运行。digitalPebble Behemoth 项目提供了一种方便的方式来处理这个问题。

于 2013-08-26T19:38:07.660 回答
0

您可能会发现Apache Tika很有用。

于 2013-06-21T18:51:10.730 回答