0

在 GSA(Google Search Appliance)中,我正在研究如何让它只抓取元数据(名称、类型、大小、上次修改时间等)而不是文件的内容。虽然我意识到这会影响结果的有用性,但我有我的要求。

归结为文件的元数据是公开的,但文件的内容是受限制的。虽然这似乎是一个经过安全调整的问题,但它稍微多一点,因为我不希望 GSA 在索引中存储有关文件内容的任何信息。假设不信任 GSA 服务器来保存内容。这仅适用于整个数据集的一小部分。

关于如何将 GSA 和连接器配置为仅抓取元数据而不抓取内容的任何想法?

4

1 回答 1

1

不确定是否可以通过抓取文件(在文件共享或网站上)来执行此操作,但是您可以通过抓取包含元数据的列的数据库或开发仅创建提供元数据的提要的连接器来执行此操作。

如果您将元数据存储在某处,但不是一起存储在文件中,这将起作用。

另一种选择是自定义您的前端以不提供指向文档的链接,而仅配置要在结果中显示的元数据。(在前端使用1自动显示元数据字段)您还需要在搜索查询中添加“ getfields ”参数以包含相关的元数据字段。

这适用于数据库场景。尚未使用文件元数据对其进行测试,但应该可以使用。

邓肯·德克勒克·康纳

于 2012-02-23T10:17:04.190 回答