10

我正在寻找基于 Java 的Apache Tika框架的 C/C++ 替代方案。具体来说,我正在一个框架下搜索文件数据和结构化文本提取。经过一些在线搜索和浏览后,我拥有的最接近的东西是GNU libextractor和一堆单独的文件过滤器,它们解析文档以提取文本数据(pdftoext、xls2csv ..etc)

任何人都可以推荐一个可以与 Apache 的 Tika 相媲美的好图书馆吗?

谢谢

4

2 回答 2

1

Tika 有一个网络服务器模式,所以你总是可以使用它来启动 Tika,然后从你的 C++ 代码中发送请求?

或者,Tika 有一个 CLI 模式,因此您可以每次启动一个新的 Tika 进程并从管道中读取数据。

于 2011-06-04T06:12:24.443 回答
1

KDE提供了一个名为KFileMetaData的库,他们在内部将其用于文件索引器。

它使用 C++、Qt5 并支持大多数基本格式,例如 - ms-office-2007、odfs、pdfs、图像、视频、音频和电子书。

于 2015-04-27T13:48:23.440 回答