我有兴趣找到一个用于 NLP/文本处理目的的库,它提供了一个用于访问最常见文本格式的文本的通用接口:
- Microsoft Word
.doc
和可能.docx
- RTF
- HTML
- “纯文本”
我想要一些忽略文档中除文本之外的所有信息的东西,但它应该统一以下功能:
- 内联与块格式(块就像段落,但内联样式更改被忽略)
- 所有字符编码、实体等,UTF 应该是相同的(可能是 UTF-8 或 UTF-16)
- 可针对各种纯文本格式进行配置,例如用于自动换行的格式与带有硬编码换行符的格式
- 具有一次获取字符/单词/句子的方法,无论底层文档格式如何,都具有相同的语义
- 注意歧义,例如行尾的连字符、可能既是首字母缩略词的一部分又是句子结尾的句点。
如果它只支持任何两种格式并且只支持我上面的一些功能,我仍然很高兴。
谷歌搜索没有成功,但如果这样的事情不存在,我会感到惊讶。NLP 人们会用什么来处理大量真实世界的文本?任何平台/编程语言都可以,因为这很难找到。开源所以我可以贡献是最好的。
(如果这被认为是题外话并关闭,我至少会感谢其他 Stack Exchange 网站的推荐,或者在其他论坛上提出这样的问题。)