regex - Import.io -“从哪里提取数据”优化的 URL 模式

问问题 2015-07-28T17:13:41.033

183 次

1

使用 Import.io 进行爬网时，我们有高级选项来设置 URL 模式以确定页面是否应该提取数据。

我习惯使用正则表达式，所以我很难使用 Import.io URL 模式。

正则表达式中的模式是

http://www.site.com/。[0-9]+.html。

如何使用 Import.io 模式做到这一点？

我尝试了以下方法，但没有奏效：

www.site.com/{any}{num}.html

一些应该提取的例子：

www.site.com/foo/bar/foo234.html
www.site.com/bla890.html
www.site.com/bar/bar/bar/bar/bar/bar/aaa123.html

这些是 Import.io 表示法：

{any} - 任何东西（包括无）{num} - 一个数字，例如 8767
{alpha} - az 个字符，例如 Dog {alpha-num} - alpha 或 num，例如 435h5k </li>
{words-num} - 包含由 -、_ 或 + 分隔的数字的单词，例如 this-is_a+2nd example </li>
{not-slash} - 除斜线之外的任何内容 </li>
{uuid} - 一个 UUID，例如 439a110f-bba1-46a5-befd-1f32cfb63dc8 </li>
{query-string} - 查询字符串，例如 ?a=1&b=2%c=3
{query-params} - 部分查询字符串，例如 a=1&b=2 </li>
{ref} - 引用，也称为锚点，例如 #foo $ - 匹配 URL 的结尾

更多细节： http: //support.import.io/knowledgebase/articles/247574-advanced-crawler-options

谢谢！

0 回答 0