3

我想编写一个工具来帮助我在 linux 中搜索 pdf/chm/djvu 文件。关于如何去做的任何指示?

主要问题是从所有这些文件中读取/导入数据。这可以用 C 和 shell 脚本来完成吗?

4

3 回答 3

1

Tracker随 Ubuntu 8.04 一起提供——它是从 Beagle 的一个重大转变,用户认为它过于占用资源 (CPU) 并且没有产生足够好的结果。它同时索引 pdf 和 chm,根据这个错误报告,它还索引 djvu。

于 2008-08-30T08:59:56.063 回答
1

请注意,djvu 是一种图像压缩格式(经过优化以压缩“文本图片”,通常是扫描结果)。因此,您将无法搜索文本,除非在元数据中(这是 cdleary 发送的链接所指的内容),或者如果您首先在文档上使用 OCR 将其转换为文本。

对于内容是扫描的文章/书籍的 PDF 也是如此。

于 2008-08-30T09:17:23.477 回答
0

Beagle的插件怎么样?

它已经搜索了 PDF,但您可以添加其他文件类型。

这是相关的维基百科页面:http://en.wikipedia.org/wiki/Beagle_(software)

于 2008-08-30T08:11:37.520 回答