0

正如标题所示,我已经设法配置我的 GSA 来抓取我的 PDF 文件。它们显示在带有指向它们的链接的列表页面上,以便可以抓取 URL 并将其添加到特定集合中(在此帖子中称为“我的 PDF”)。

抓取成功,我可以在“My-PDFs”集合的 GSA 抓取诊断中看到以下内容:

抓取诊断

 File/Directory                             | Crawl Status

 http://mydomain.com/Listings/MyPdfs.aspx   | Crawled: New Document
 http://mydomain.com/mypdfs/cat1/issue5.pdf | Crawled: New Document
 http://mydomain.com/mypdfs/cat2/issue4.pdf | Crawled: New Document
 http://mydomain.com/mypdfs/cat3/issue2.pdf | Crawled: New Document
 http://mydomain.com/mypdfs/cat4/issue3.pdf | Crawled: New Document
 http://mydomain.com/mypdfs/cat5/issue1.pdf | Crawled: New Document

单个文件的抓取诊断

有关此页面的更多信息

  • 链接到此页面
  • 缓存版本不可用
  • PageRank:不可用
  • 最后修改:
  • 此页面上已抓取页面的链接数:未知
  • 链接到该页面的已抓取页面数:未知
  • 此页面位于以下集合中:
    • 我的 PDF

但是,当使用 GSA 测试中心对同一个“我的 PDF”集合进行搜索时,PDF 文件将不会返回。我确保在测试中心使用适当的前端选择,以及正确的集合('My-PDFs'),然后使用文档中的关键字。我也尝试过使用文档的文件名,但仍然没有结果。我总是得到:

您的搜索 - TestKeyword - 没有匹配任何文档。
找不到包含“TestKeyword”的页面。

(显然,使用实际的关键字)

有任何想法吗?

注意:使用 GSA 5.0。

4

1 回答 1

0

事实证明这是我们 GSA 设备的损坏。在特定日期之后创建的任何新集合似乎都已被爬网但无法搜索。以前工作的现有集合可以继续更新,但新集合不能。

用新硬件替换 GSA 设备是迄今为止唯一有效的解决方案。

于 2012-07-20T13:58:35.417 回答