Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我想编写一个工具来帮助我在 linux 中搜索 pdf/chm/djvu 文件。关于如何去做的任何指示?
主要问题是从所有这些文件中读取/导入数据。这可以用 C 和 shell 脚本来完成吗?
Tracker随 Ubuntu 8.04 一起提供——它是从 Beagle 的一个重大转变,用户认为它过于占用资源 (CPU) 并且没有产生足够好的结果。它同时索引 pdf 和 chm,根据这个错误报告,它还索引 djvu。
请注意,djvu 是一种图像压缩格式(经过优化以压缩“文本图片”,通常是扫描结果)。因此,您将无法搜索文本,除非在元数据中(这是 cdleary 发送的链接所指的内容),或者如果您首先在文档上使用 OCR 将其转换为文本。
对于内容是扫描的文章/书籍的 PDF 也是如此。
Beagle的插件怎么样?
它已经搜索了 PDF,但您可以添加其他文件类型。
这是相关的维基百科页面:http://en.wikipedia.org/wiki/Beagle_(software)