2

我正在使用Sphider

我想允许 Spider 离开我的域http://www.example.com但只抓取/访问包含example. 意味着只有像http://www.example.comhttp://www.my-example.comhttp://www.test.example.com这样的 URL应该被访问/索引,而不是http://www。 exa-mple.com

阅读手册后,我尝试了以下操作:我尝试过的截图。

但是我在尝试建立索引时收到了这条消息:图片:我在尝试建立索引时得到了什么。

谁能帮我。我究竟做错了什么?我也已经尝试过*example*,但这也没有用。

4

2 回答 2

2

文档包含一个误导性示例:

前面以 a 开头的每个字符串'*'都被视为正则表达式,因此'*/[a]+/'表示其中包含一个或多个 a 的字符串。

[...]是一个字符类,它匹配其中定义的集合/范围中的任何单个字符。

您可以使用 a*/example/定义匹配example字符串的正则表达式。但是,如果您对检查上下文不感兴趣,则不妨example在必须包含列表中使用字符串。

于 2017-04-17T09:45:50.263 回答
0
^(?=.*example)https?:\/\/\S+$

你可以试试这个。演示测试在这里https://regex101.com/r/LUkHsD/3

于 2017-04-17T10:16:30.910 回答