0

我正在尝试按文件类型为用户设置过滤器。

使用特殊查询词文件类型过滤文件扩展名过滤器将文本添加到查询词的末尾。依次显示 Searched for "abc etx:pdf" 并将其添加到几乎不理想的建议中。

为每种文件类型设置单独的前端或使用as_filetype也会导致类似的困境。

我真的不想为每个集合设置单独的集合,因为那样我最终会得到超过 70 个集合(我正在爬取 10 个站点)。

是否有任何其他替代方法可以按未添加到查询词的 mime 或扩展名过滤结果?按 mime 或扩展名过滤的最佳方法是什么?

4

1 回答 1

0

如果文件的扩展名出现在其 URL 中,您可以使用实体识别添加一个特殊的元数据条目,并将文件扩展名作为值。或者,您可以从您的 Web 服务器为该文件返回一个特殊的 HTTP 响应标头,您可以在 GSA 中将其配置为该文件的附加元数据。

一旦您有了文件的特定元数据字段,您就可以使用 requiredfields 参数来过滤它们,而不会污染搜索词。例如,假设所有 PDF 都有一个名为“FileType”且值为“PDF”的元数据字段,您的搜索 URL 将如下所示

...&q=<what user searched>&requiredfields=FileType:PDF

于 2015-04-01T12:09:04.343 回答