google-search - 谷歌搜索未返回索引的 PDF 文件

Question

正如标题所示，我已经设法配置我的 GSA 来抓取我的 PDF 文件。它们显示在带有指向它们的链接的列表页面上，以便可以抓取 URL 并将其添加到特定集合中（在此帖子中称为“我的 PDF”）。

抓取成功，我可以在“My-PDFs”集合的 GSA 抓取诊断中看到以下内容：

抓取诊断

 File/Directory                             | Crawl Status

 http://mydomain.com/Listings/MyPdfs.aspx   | Crawled: New Document
 http://mydomain.com/mypdfs/cat1/issue5.pdf | Crawled: New Document
 http://mydomain.com/mypdfs/cat2/issue4.pdf | Crawled: New Document
 http://mydomain.com/mypdfs/cat3/issue2.pdf | Crawled: New Document
 http://mydomain.com/mypdfs/cat4/issue3.pdf | Crawled: New Document
 http://mydomain.com/mypdfs/cat5/issue1.pdf | Crawled: New Document

单个文件的抓取诊断：

有关此页面的更多信息

链接到此页面

缓存版本不可用

PageRank：不可用

最后修改：

此页面上已抓取页面的链接数：未知

链接到该页面的已抓取页面数：未知

此页面位于以下集合中：

我的 PDF

但是，当使用 GSA 测试中心对同一个“我的 PDF”集合进行搜索时，PDF 文件将不会返回。我确保在测试中心使用适当的前端选择，以及正确的集合（'My-PDFs'），然后使用文档中的关键字。我也尝试过使用文档的文件名，但仍然没有结果。我总是得到：

您的搜索 - TestKeyword - 没有匹配任何文档。
找不到包含“TestKeyword”的页面。

（显然，使用实际的关键字）

有任何想法吗？

注意：使用 GSA 5.0。

score 0 · Accepted Answer

事实证明这是我们 GSA 设备的损坏。在特定日期之后创建的任何新集合似乎都已被爬网但无法搜索。以前工作的现有集合可以继续更新，但新集合不能。

用新硬件替换 GSA 设备是迄今为止唯一有效的解决方案。

google-search - 谷歌搜索未返回索引的 PDF 文件

1 回答 1

Related

Reference