我需要从大量文本中提取日期。语言越多越好;至少英语、西班牙语和葡萄牙语。这样的工具存在吗?在 Java 和 Mavenized 中?这是我发现的:
- http://code.google.com/p/heideltime/多种语言和令人印象深刻的在线演示,但需要一些奇怪的外部依赖项,我怀疑这会使集群部署变得困难/不可能
- http://nlp.stanford.edu/software/sutime.shtml有据可查,但只有英文。容易训练吗?
- http://natty.joestelmach.com/仅英文
- https://github.com/samtingleff/jchronic仅限英文
- http://code.google.com/p/nltk/source/browse/trunk/nltk_contrib/nltk_contrib/timex.py仅英文
我还应该去哪里看?