html - 提供多种常见文档格式的纯文本访问/迭代的库？

Question

我有兴趣找到一个用于 NLP/文本处理目的的库，它提供了一个用于访问最常见文本格式的文本的通用接口：

我想要一些忽略文档中除文本之外的所有信息的东西，但它应该统一以下功能：

如果它只支持任何两种格式并且只支持我上面的一些功能，我仍然很高兴。

谷歌搜索没有成功，但如果这样的事情不存在，我会感到惊讶。NLP 人们会用什么来处理大量真实世界的文本？任何平台/编程语言都可以，因为这很难找到。开源所以我可以贡献是最好的。

（如果这被认为是题外话并关闭，我至少会感谢其他 Stack Exchange 网站的推荐，或者在其他论坛上提出这样的问题。）

score 1 · Accepted Answer

您可能需要两个步骤：从文件中获取内容，然后使用一些 NLP 工具包对其进行分析。第一步可以用Apache Tika完成。对于第 2 步，最知名的替代方案可能是Gate、Apache UIMA和OpenNLP。请注意，可能会有一些重叠，例如 UIMA 可能已经有一个使用 Tika 的组件。

1 回答 1