1

我已经编写了一个基于“学习”技术的scrubyt 提取器——也就是说,指定页面上的当前文本并让它自己计算出XPath 表达式。但是,我现在想导出提取器,以便即使页面发生更改也可以使用它。

现在,scrubyt 的文档似乎到处都是,但据我所知,我应该能够放置这条线extractor.export(__FILE__)并且它应该可以工作。它没有 - 我只是收到一个错误,说导出的参数数量错误,它应该有 0。我已经尝试过没有任何参数,但它仍然失败。

我会在scrubyt 论坛上问,但似乎很久没有人在那里了!

任何想法在这里做什么?

4

1 回答 1

1

刚刚遇到同样的问题并尝试了“puts google_data.export()”(试图从谷歌获取一些东西)

这给了我以下信息:

=== 提取树 ===

 export() is not working at the moment, due to the removal or

ParseTree、ruby2ruby 和 RubyInline。现在,如果您正在使用示例,您可以根据下面的输出手动替换它们。因此,如果您在学习提取器中的模式看起来像

 book "Ruby Cookbook" 

 and you see the following below:

 [book] /table[1]/tr/td[2]

 then replace "Ruby Cookbook" with "/table[1]/tr/td[2]" (and all the

其他 XPaths),你就准备好了![链接] /body/div/div/div/div/div/ol/li/h3/a

这给了我我正在寻找的 xpath

Scrubyt 版本是 0.4.06

于 2011-03-25T09:33:25.197 回答