我正在使用基于多种 cf 的 Windows 文件共享连接器来抓取文件。但 Manifold CF 也会更新它读取的所有文件的 lastAccessTime。
我想读取所有文件而不更新它们的 lastAccessTime。
我需要更新 Manifold CF 中的哪些文件以及如何实现这一点?
我正在使用基于多种 cf 的 Windows 文件共享连接器来抓取文件。但 Manifold CF 也会更新它读取的所有文件的 lastAccessTime。
我想读取所有文件而不更新它们的 lastAccessTime。
我需要更新 Manifold CF 中的哪些文件以及如何实现这一点?
ManifoldCF当前不维护使用其 SharedDriveConnector 抓取的共享文件的最后访问时间戳。它使用不支持读取或恢复触摸文件的最后访问时间戳的jcifs 。
但是,正如您已经注意到的那样,Google Search Appliance (GSA) 以某种方式设法保留了上次访问时间戳。所以 ManifoldCF 也应该是可能的。
在 GSA 的第 3 版中,其文件系统连接器依赖于 jcifs 的修补版本。(参见github.com/googlegsa/filesystem.v3)并且该版本的发行说明表明,连接器也能够保留时间戳。(见发行说明)
因此,通过使用来自谷歌的 jcifs 的修补版本,可以修补 ManifoldCF 以保留最后修改的时间戳。进一步讨论此类问题的最佳方式是将此要求发布到manifoldcf 邮件列表user@manifoldcf.apache.org或在问题跟踪器中打开功能请求
2017-07-13 更新 该功能已在CONNECTORS-1429中讨论,将不会实施。
一个有趣的事实是,在第 4 版中,GSA 不再使用 jcifs。相反,GSA 连接器依赖于本地 Windows 设施。
另一个旁注:为了能够更新上次访问时间戳,用于爬取的用户需要写入基本属性权限。(参见GSA 文档)