使用 Import.io 进行爬网时,我们有高级选项来设置 URL 模式以确定页面是否应该提取数据。
我习惯使用正则表达式,所以我很难使用 Import.io URL 模式。
正则表达式中的模式是
http://www.site.com/。[0-9]+.html。
如何使用 Import.io 模式做到这一点?
我尝试了以下方法,但没有奏效:
www.site.com/{any}{num}.html
一些应该提取的例子:
- www.site.com/foo/bar/foo234.html
- www.site.com/bla890.html
- www.site.com/bar/bar/bar/bar/bar/bar/aaa123.html
这些是 Import.io 表示法:
- {any} - 任何东西(包括无){num} - 一个数字,例如 8767
- {alpha} - az 个字符,例如 Dog {alpha-num} - alpha 或 num,例如 435h5k </li>
- {words-num} - 包含由 -、_ 或 + 分隔的数字的单词,例如 this-is_a+2nd example </li>
- {not-slash} - 除斜线之外的任何内容 </li>
- {uuid} - 一个 UUID,例如 439a110f-bba1-46a5-befd-1f32cfb63dc8 </li>
- {query-string} - 查询字符串,例如 ?a=1&b=2%c=3
- {query-params} - 部分查询字符串,例如 a=1&b=2 </li>
- {ref} - 引用,也称为锚点,例如 #foo $ - 匹配 URL 的结尾
更多细节: http: //support.import.io/knowledgebase/articles/247574-advanced-crawler-options
谢谢!