0

我有兴趣找到一个用于 NLP/文本处理目的的库,它提供了一个用于访问最常见文本格式的文本的通用接口:

  • Microsoft Word.doc和可能.docx
  • RTF
  • HTML
  • “纯文本”

我想要一些忽略文档中除文本之外的所有信息的东西,但它应该统一以下功能:

  • 内联与块格式(块就像段落,但内联样式更改被忽略)
  • 所有字符编码、实体等,UTF 应该是相同的(可能是 UTF-8 或 UTF-16)
  • 可针对各种纯文本格式进行配置,例如用于自动换行的格式与带有硬编码换行符的格式
  • 具有一次获取字符/单词/句子的方法,无论底层文档格式如何,都具有相同的语义
  • 注意歧义,例如行尾的连字符、可能既是首字母缩略词的一部分又是句子结尾的句点。

如果它只支持任何两种格式并且只支持我上面的一些功能,我仍然很高兴。

谷歌搜索没有成功,但如果这样的事情不存在,我会感到惊讶。NLP 人们会用什么来处理大量真实世界的文本?任何平台/编程语言都可以,因为这很难找到。开源所以我可以贡献是最好的。


(如果这被认为是题外话并关闭,我至少会感谢其他 Stack Exchange 网站的推荐,或者在其他论坛上提出这样的问题。)

4

1 回答 1

1

您可能需要两个步骤:从文件中获取内容,然后使用一些 NLP 工具包对其进行分析。第一步可以用Apache Tika完成。对于第 2 步,最知名的替代方案可能是GateApache UIMAOpenNLP。请注意,可能会有一些重叠,例如 UIMA 可能已经有一个使用 Tika 的组件。

于 2012-12-02T17:38:44.440 回答