1

使用 Import.io 进行爬网时,我们有高级选项来设置 URL 模式以确定页面是否应该提取数据。

我习惯使用正则表达式,所以我很难使用 Import.io URL 模式。

正则表达式中的模式是

http://www.site.com/。[0-9]+.html。

如何使用 Import.io 模式做到这一点?

我尝试了以下方法,但没有奏效:

www.site.com/{any}{num}.html

一些应该提取的例子:

  • www.site.com/foo/bar/foo234.html
  • www.site.com/bla890.html
  • www.site.com/bar/bar/bar/bar/bar/bar/aaa123.html

这些是 Import.io 表示法:

  • {any} - 任何东西(包括无){num} - 一个数字,例如 8767
  • {alpha} - az 个字符,例如 Dog {alpha-num} - alpha 或 num,例如 435h5k </li>
  • {words-num} - 包含由 -、_ 或 + 分隔的数字的单词,例如 this-is_a+2nd example </li>
  • {not-slash} - 除斜线之外的任何内容 </li>
  • {uuid} - 一个 UUID,例如 439a110f-bba1-46a5-befd-1f32cfb63dc8 </li>
  • {query-string} - 查询字符串,例如 ?a=1&b=2%c=3
  • {query-params} - 部分查询字符串,例如 a=1&b=2 </li>
  • {ref} - 引用,也称为锚点,例如 #foo $ - 匹配 URL 的结尾

更多细节: http: //support.import.io/knowledgebase/articles/247574-advanced-crawler-options

谢谢!

4

0 回答 0