我正在寻找基于 Java 的Apache Tika框架的 C/C++ 替代方案。具体来说,我正在一个框架下搜索文件数据和结构化文本提取。经过一些在线搜索和浏览后,我拥有的最接近的东西是GNU libextractor和一堆单独的文件过滤器,它们解析文档以提取文本数据(pdftoext、xls2csv ..etc)
任何人都可以推荐一个可以与 Apache 的 Tika 相媲美的好图书馆吗?
谢谢
我正在寻找基于 Java 的Apache Tika框架的 C/C++ 替代方案。具体来说,我正在一个框架下搜索文件数据和结构化文本提取。经过一些在线搜索和浏览后,我拥有的最接近的东西是GNU libextractor和一堆单独的文件过滤器,它们解析文档以提取文本数据(pdftoext、xls2csv ..etc)
任何人都可以推荐一个可以与 Apache 的 Tika 相媲美的好图书馆吗?
谢谢
Tika 有一个网络服务器模式,所以你总是可以使用它来启动 Tika,然后从你的 C++ 代码中发送请求?
或者,Tika 有一个 CLI 模式,因此您可以每次启动一个新的 Tika 进程并从管道中读取数据。
KDE提供了一个名为KFileMetaData的库,他们在内部将其用于文件索引器。
它使用 C++、Qt5 并支持大多数基本格式,例如 - ms-office-2007、odfs、pdfs、图像、视频、音频和电子书。