2

我正在为我的项目探索斯坦福时间标记器,以从文本中提取日期实体。http://nlp.stanford.edu:8080/sutime/process的演示似乎很有希望。我想了解这个库是否成熟。还有人帮助我了解这个库如何处理大数据。如果您能指导我了解其他基于 Java 的时间标记库,尤其是针对大数据需求的时间标记库,那也会很有帮助。是否有任何进行时间标记的apache项目?

我发现了一些图书馆,比如

https://code.google.com/p/heideltime/

https://code.google.com/p/stemptag/

4

1 回答 1

4

是的,SUTime 库是成熟且相当准确的,已经运行了数千万字的文本。(只要确保你没有调用斯坦福 CoreNLP 中更昂贵和更慢的部分——解析和 dcoref——时间标记不需要这些部分。)

Heideltime 是另一个非常好的用于时间标记的 Java 库。它的优点是支持多种语言,而SUTime目前只支持英文。它的缺点是配置为使用 TreeTagger 作为其词性标注器,这意味着您要么需要使用这个非开源、非 Java 组件来处理,要么您需要编写一些东西来将其配置为使用其他一些 POS 标记器。我不熟悉 stemptag;我认为没有任何 apache 项目可以解决这个问题。

于 2013-09-03T21:12:52.603 回答