问题标签 [scrubyt]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

11 问题

0 投票

1 回答

804 浏览

ruby - 如何使用 Scrubyt 获取“下一页”链接

我正在尝试使用 Scrubyt 从该页面http://www.nuffieldtheatre.co.uk/cn/events/event_listings.php?section=events获取详细信息。我已经设法从列表中获取标题和详细 URL，但我无法使用 next_page 让刮刀转到下一页。我认为这是因为我没有为下一页链接使用正确的模式。我尝试了字符串“Next Page”，也尝试了 XPath。还有其他想法吗？

代码如下：

ruby scrubyt

robintw

2008-10-03T20:56:10.633

0 投票

4 回答

365 浏览

ruby - 使用 _details 方法单击链接时，Scrubyt 给出 404 错误

这可能与我之前的两个问题类似 - 请参阅此处和此处，但我正在尝试使用 _detail 命令自动单击链接，以便我可以抓取每个事件的详细信息页面。

我正在使用的代码是：

有没有办法打印出使用 event_detail 试图访问的 URL？该错误似乎没有给我给出 404 的 URL。

更新：我认为该链接可能是一个相对链接——这会导致问题吗？任何想法如何处理？

ruby scrubyt

robintw

2008-10-04T14:17:43.073

0 投票

4 回答

1119 浏览

ruby-on-rails - 从 Scrubyt 过渡到 Nokogiri - 写入 XML 或哈希？

我正在尝试将这段代码从scrubyt 转换为nokogiri，并且一直试图将我的结果写入哈希或xml。在 scrubyt 中，它如下所示：

使用 nokogiri 我可以解析出我想要的信息，但似乎没有一种快速的方法来返回散列或 xml 文档中的项目。这就是我在 nokogiri 所拥有的一切。

如何将项目信息返回到 xml 或散列？

ruby-on-rails xml rubygems nokogiri scrubyt

2009-08-19T06:22:32.383

0 投票

3 回答

4541 浏览

html - 使用 Hpricot (Ruby on Rails) 抓取隐藏的 HTML（当 visible = false 时）

我遇到了一个不幸的是我似乎无法超越的问题，不幸的是，我也只是 Ruby on rails 的新手，因此问题的数量

我正在尝试抓取如下网页：

我想抓取下一页的地址、电话和 URL，在这种情况下是

我一直在尝试任何我能想到的东西，但似乎没有任何效果，因为它们被设置为不可见左右。

地址在h3标记内，但似乎不可废弃。我也一直在从以下 url 研究 ScRUBYt http://www.rubyrailways.com/ajax-scraping-with-scrubyt-linkedin-google-analytics-yahoo-suggestions/，但我似乎真的找不到在这种情况下如何应用它们的正面或反面。

我真的很感激任何指示，因为这是我真正需要克服的障碍才能继续完成我的任务。提前感谢您的帮助。

html ruby-on-rails screen-scraping hpricot scrubyt

2009-11-12T01:23:59.363

0 投票

1 回答

58 浏览

scrubyt - Scrbyt：在 query_field 中为 fill_textfield 使用 big5 字符串

有谁知道让fill_textfield 接受query_field 中的big5 编码字符串的方法？我不断收到“未终止的字符串遇到文件结尾”错误：

scrubyt big5

2010-05-19T01:29:45.397

0 投票

1 回答

95 浏览

ruby - 如何导出scrubyt提取器？

我已经编写了一个基于“学习”技术的scrubyt 提取器——也就是说，指定页面上的当前文本并让它自己计算出XPath 表达式。但是，我现在想导出提取器，以便即使页面发生更改也可以使用它。

现在，scrubyt 的文档似乎到处都是，但据我所知，我应该能够放置这条线extractor.export(__FILE__)并且它应该可以工作。它没有 - 我只是收到一个错误，说导出的参数数量错误，它应该有 0。我已经尝试过没有任何参数，但它仍然失败。

我会在scrubyt 论坛上问，但似乎很久没有人在那里了！

任何想法在这里做什么？

ruby screen-scraping scrubyt

2010-05-29T11:19:16.023

0 投票

1 回答

175 浏览

ruby - 如何正确使用 Scrubty 从 XML 输出的内容中抓取 URL

我绝不是 Ruby 的大师，而且对 Scrubyt 也很陌生。我只是在尝试在 wiki 页面上找到的一些示例。我正在处理的示例是在您搜索“ruby”时获取谷歌返回的搜索结果，我有获取每个结果的 URL 的想法，这样我就可以继续获取该页面。问题是我不知道如何正确获取 URL。这是我的以下代码：

代码适当地打印出 XML 数据（名称和链接），但是如何在没有<link_url>似乎添加到其中的标签的情况下检索链接（我试图打印出 link_url，我注意到标签也被打印出来了）。我可以做一些简单的事情吗？fetch link_url或者有没有办法从保存的 xml 内容中提取文本link_url？

这是由打印的一些内容google_data.to_xml.write()：

ruby xml web-scraping scrubyt

2010-09-06T22:54:56.780

0 投票

1 回答

899 浏览

ruby - Scrubyt 不适用于 Windows

我正在运行 Windows XP。我刚刚安装了最新版本的 Ruby(1.9) - Hpricot、Mechanize 和 Scrubyt 安装没有任何问题。我试图使用我能找到的最简单的例子来让 scryt 工作。例子：

但是，我不断收到错误消息：

我尝试了几个入门示例，都给出了相同的错误消息。我今天刚开始使用 ruby，所以我无法弄清楚发生了什么。

谢谢！

ruby scrubyt

2011-03-02T13:53:35.707

0 投票

1 回答

315 浏览

ruby - Ruby 1.9.2 在 Windows 上带有 scrubyt

在 Windows 上使用 Scrubyt 和 Ruby 1.9.2，调用 Scrubyt::Extractor.define 时出现以下错误

@@agent = Mechanize::Mechanize.new尽管在文件“require 'mechanize'”中指定了 Mechanize，但它似乎与在 scrubyt/core/navigation/agents/mechanize.rb 中未加载有关

我安装了 mechanize (2.0.1)、hpricot (0.8.4)、fireawtir (1.9.3) 和 nokogiri (1.5.0)

关于为什么这个问题的任何想法？

ruby screen-scraping scrubyt

2011-07-26T20:30:51.207

0 投票

1 回答

628 浏览

ruby-on-rails - 未初始化的常量 Scrubyt::Navigation::Mechanize::WWW (NameError)

我正在使用 Scrubyt gem，当我使用它时，我收到了这个错误：

我安装了以下宝石

知道这里可能有什么问题吗？

ruby-on-rails ruby mechanize scrubyt

2011-09-07T12:29:21.903

1 2 3 4 5 6 7 8 9 10

问题标签 [scrubyt]

Reference