我需要一个稳定的 Java 库,我可以将一个巨大的字符串传递给(例如, Moby Dick的几章)并获得类似“字数”的统计信息:
- 段落数
- 句子数
- 字数
- 字符数
最好是可国际化/可本地化但不是必需的东西。我认为 Apache Commons 会有这样的东西,但经过彻底搜索后却没有。
我可以自己写这个,但它可能会出错并且需要很多时间;另外,如果它已经存在,我不想重新发明轮子。我正在考虑使用 Apache Tika,但无法确认它是否能满足我的需要。它似乎处理字数,但不是其他的。提前致谢。
我需要一个稳定的 Java 库,我可以将一个巨大的字符串传递给(例如, Moby Dick的几章)并获得类似“字数”的统计信息:
最好是可国际化/可本地化但不是必需的东西。我认为 Apache Commons 会有这样的东西,但经过彻底搜索后却没有。
我可以自己写这个,但它可能会出错并且需要很多时间;另外,如果它已经存在,我不想重新发明轮子。我正在考虑使用 Apache Tika,但无法确认它是否能满足我的需要。它似乎处理字数,但不是其他的。提前致谢。