1

我已经四处寻找。也许我不知道要搜索什么...

我需要能够索引和搜索“安全”PDF。这些 PDF 选择了“禁止复制”属性并被锁定。这意味着没有用户名和密码就无法复制 PDF 的内容。IFilter 尊重这些设置,并且不允许对 PDF 进行索引。

我正在寻找一种方法来使用 aspx.net 在我的服务器上索引和搜索这些 PDF。看来我遇到了以下问题之一:

  1. 我应该拥有打开这些 PDF 以获得对内容的“复制”访问所需的凭据
  2. 为我的工具提交 PDF 时,需要提交两个项目:单词副本 - 和 - PDF 副本
  3. 将全部内容复制到 PDF 的元数据中,或者至少复制一些关键词。我还没有研究过这里可能涉及什么样的风险。这对作家来说意味着额外的一步

解决方案 1 和 2 意味着在服务器或数据库中维护副本……并以编程方式参考实际下载。有没有人为此提出解决方案?我更喜欢索引功能,因为它意味着内容不重复。如果 PDF 元数据可以处理这么多内容并且安全性仍然完好无损,则解决方案 3 很有吸引力。我也想知道对 PDF 的编程访问,通过 C# 或 VB,我可以使用凭据来获得访问权限......但看起来我可能会被卡住。

这是我寻找另一种解决方案的最后努力。任何帮助,将不胜感激。

4

2 回答 2

0

如果您有文件的用户名和密码,也许您可​​以打开文件并从中提取文本?

然后,您将能够从提取的数据中构建索引。

我参与的库Docotic.Pdf可以为您打开受密码保护的文件。它也可以提取文本。文本可以提取为纯文本或格式化文本,并且可以按单词或字符分割。

请查看以下示例:

于 2012-10-03T16:04:36.090 回答
0

我最终选择了一个完全不同的解决方案。我喜欢利用 MS 的索引的想法,但是使用 SQL 并让上传 PDF 的用户将关键字或 pdf 的内容粘贴到文本框中变得更加容易。然后 SQL 可以索引该“列”和 bamm ......搜索引擎会完成剩下的工作。

感谢大家花时间考虑这个问题。

于 2012-10-12T16:52:32.563 回答