问题标签 [scrubyt]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
804 浏览

ruby - 如何使用 Scrubyt 获取“下一页”链接

我正在尝试使用 Scrubyt 从该页面http://www.nuffieldtheatre.co.uk/cn/events/event_listings.php?section=events获取详细信息。我已经设法从列表中获取标题和详细 URL,但我无法使用 next_page 让刮刀转到下一页。我认为这是因为我没有为下一页链接使用正确的模式。我尝试了字符串“Next Page”,也尝试了 XPath。还有其他想法吗?

代码如下:

0 投票
4 回答
365 浏览

ruby - 使用 _details 方法单击链接时,Scrubyt 给出 404 错误

这可能与我之前的两个问题类似 - 请参阅此处此处,但我正在尝试使用 _detail 命令自动单击链接,以便我可以抓取每个事件的详细信息页面。

我正在使用的代码是:

有没有办法打印出使用 event_detail 试图访问的 URL?该错误似乎没有给我给出 404 的 URL。

更新:我认为该链接可能是一个相对链接——这会导致问题吗?任何想法如何处理?

0 投票
4 回答
1119 浏览

ruby-on-rails - 从 Scrubyt 过渡到 Nokogiri - 写入 XML 或哈希?

我正在尝试将这段代码从scrubyt 转换为nokogiri,并且一直试图将我的结果写入哈希或xml。在 scrubyt 中,它如下所示:

使用 nokogiri 我可以解析出我想要的信息,但似乎没有一种快速的方法来返回散列或 xml 文档中的项目。这就是我在 nokogiri 所拥有的一切。

如何将项目信息返回到 xml 或散列?

0 投票
3 回答
4541 浏览

html - 使用 Hpricot (Ruby on Rails) 抓取隐藏的 HTML(当 visible = false 时)

我遇到了一个不幸的是我似乎无法超越的问题,不幸的是,我也只是 Ruby on rails 的新手,因此问题的数量

我正在尝试抓取如下网页:

我想抓取下一页的地址、电话和 URL,在这种情况下是

我一直在尝试任何我能想到的东西,但似乎没有任何效果,因为它们被设置为不可见左右。

地址在h3标记内,但似乎不可废弃。我也一直在从以下 url 研究 ScRUBYt http://www.rubyrailways.com/ajax-scraping-with-scrubyt-linkedin-google-analytics-yahoo-suggestions/,但我似乎真的找不到在这种情况下如何应用它们的正面或反面。

我真的很感激任何指示,因为这是我真正需要克服的障碍才能继续完成我的任务。提前感谢您的帮助。

0 投票
1 回答
58 浏览

scrubyt - Scrbyt:在 query_field 中为 fill_textfield 使用 big5 字符串

有谁知道让fill_textfield 接受query_field 中的big5 编码字符串的方法?我不断收到“未终止的字符串遇到文件结尾”错误:

0 投票
1 回答
95 浏览

ruby - 如何导出scrubyt提取器?

我已经编写了一个基于“学习”技术的scrubyt 提取器——也就是说,指定页面上的当前文本并让它自己计算出XPath 表达式。但是,我现在想导出提取器,以便即使页面发生更改也可以使用它。

现在,scrubyt 的文档似乎到处都是,但据我所知,我应该能够放置这条线extractor.export(__FILE__)并且它应该可以工作。它没有 - 我只是收到一个错误,说导出的参数数量错误,它应该有 0。我已经尝试过没有任何参数,但它仍然失败。

我会在scrubyt 论坛上问,但似乎很久没有人在那里了!

任何想法在这里做什么?

0 投票
1 回答
175 浏览

ruby - 如何正确使用 Scrubty 从 XML 输出的内容中抓取 URL

我绝不是 Ruby 的大师,而且对 Scrubyt 也很陌生。我只是在尝试在 wiki 页面上找到的一些示例。我正在处理的示例是在您搜索“ruby”时获取谷歌返回的搜索结果,我有获取每个结果的 URL 的想法,这样我就可以继续获取该页面。问题是我不知道如何正确获取 URL。这是我的以下代码:

代码适当地打印出 XML 数据(名称和链接),但是如何在没有<link_url>似乎添加到其中的标签的情况下检索链接(我试图打印出 link_url,我注意到标签也被打印出来了)。我可以做一些简单的事情吗?fetch link_url或者有没有办法从保存的 xml 内容中提取文本link_url

这是由 打印的一些内容google_data.to_xml.write()

0 投票
1 回答
899 浏览

ruby - Scrubyt 不适用于 Windows

我正在运行 Windows XP。我刚刚安装了最新版本的 Ruby(1.9) - Hpricot、Mechanize 和 Scrubyt 安装没有任何问题。我试图使用我能找到的最简单的例子来让 scryt 工作。例子 :

但是,我不断收到错误消息:

我尝试了几个入门示例,都给出了相同的错误消息。我今天刚开始使用 ruby​​,所以我无法弄清楚发生了什么。

谢谢!

0 投票
1 回答
315 浏览

ruby - Ruby 1.9.2 在 Windows 上带有 scrubyt

在 Windows 上使用 Scrubyt 和 Ruby 1.9.2,调用 Scrubyt::Extractor.define 时出现以下错误

@@agent = Mechanize::Mechanize.new尽管在文件“require 'mechanize'”中指定了 Mechanize,但它似乎与在 scrubyt/core/navigation/agents/mechanize.rb 中未加载有关

我安装了 mechanize (2.0.1)、hpricot (0.8.4)、fireawtir (1.9.3) 和 nokogiri (1.5.0)

关于为什么这个问题的任何想法?

0 投票
1 回答
628 浏览

ruby-on-rails - 未初始化的常量 Scrubyt::Navigation::Mechanize::WWW (NameError)

我正在使用 Scrubyt gem,当我使用它时,我收到了这个错误:

我安装了以下宝石

知道这里可能有什么问题吗?