0

我需要一个稳定的 Java 库,我可以将一个巨大的字符串传递给(例如, Moby Dick的几章)并获得类似“字数”的统计信息:

  • 段落数
  • 句子数
  • 字数
  • 字符数

最好是可国际化/可本地化但不是必需的东西。我认为 Apache Commons 会有这样的东西,但经过彻底搜索后却没有。

我可以自己写这个,但它可能会出错并且需要很多时间;另外,如果它已经存在,我不想重新发明轮子。我正在考虑使用 Apache Tika,但无法确认它是否能满足我的需要。它似乎处理字数,但不是其他的。提前致谢。

4

1 回答 1

1

看看 Apache Tika。它可能满足您的要求

于 2013-02-16T13:12:28.203 回答