regex - 将 LucidWorks 包含路径配置为仅抓取某些文件类型

Question

我正在尝试将 LucidWorks Web 数据源配置为仅索引某些文件类型。但是，当我将包含路径设置.*\.html为仅抓取 .html 文件（作为简化示例）时，它最终只会索引顶级文件夹。 抓取深度设置为-1，当我将包含路径留空时，它会按预期抓取整个子树。

我查看了他们有关创建 Web 数据源和使用正则表达式的文档，但找不到不起作用的原因.*\.html，因为.*应该匹配任何字符。

score 0 · Accepted Answer

当我校对这个问题时，我有一个想法，这是正确的解决方案。在这里张贴给后代。

被爬取的内容是一个文件共享，因此它依赖于 Web 服务器的目录列表，该目录列表被过滤掉了，因为它没有 .html 扩展名。因此，只需添加.*/到包含路径即可解决问题。

1 回答 1