我正在尝试将 LucidWorks Web 数据源配置为仅索引某些文件类型。但是,当我将包含路径设置.*\.html
为仅抓取 .html 文件(作为简化示例)时,它最终只会索引顶级文件夹。 抓取深度设置为-1
,当我将包含路径留空时,它会按预期抓取整个子树。
我查看了他们有关创建 Web 数据源和使用正则表达式的文档,但找不到不起作用的原因.*\.html
,因为.*
应该匹配任何字符。
我正在尝试将 LucidWorks Web 数据源配置为仅索引某些文件类型。但是,当我将包含路径设置.*\.html
为仅抓取 .html 文件(作为简化示例)时,它最终只会索引顶级文件夹。 抓取深度设置为-1
,当我将包含路径留空时,它会按预期抓取整个子树。
我查看了他们有关创建 Web 数据源和使用正则表达式的文档,但找不到不起作用的原因.*\.html
,因为.*
应该匹配任何字符。