ruby - 单击带有 Mechanize 的 xpath 链接

Question

我想单击使用 xpath (nokogiri) 选择的带有 Mechanize 的链接。

这怎么可能？

    next_page = page.search "//div[@class='grid-dataset-pager']/span[@class='currentPage']/following-sibling::a[starts-with(@class, 'page')][1]"
    next_page.click

问题是 nokogiri 元素没有点击功能。

我无法读取 href (URL) 并发送 get 请求，因为该链接已定义 onclick 函数（无 href 属性）。

如果这不可能，有什么替代方案？

score 11 · Accepted Answer

当您尝试仅查找一个元素时使用page.at而不是。page.search

您可以使用 CSS 选择器语法使您的选择器更简单（更短）：

next_page = page.at('div.grid-dataset-pager > span.currentPage + a[class^="page"]')

Link如果您有 Nokogiri 元素、页面和 mechanize 对象来提供构造函数，则可以构建自己的实例：
```
next_link = Mechanize::Page::Link.new( next_page, mech, page )
next_link.click
```
但是，您可能不需要它，因为Mechanize#click您可以提供一个字符串，其中包含要单击的锚点/按钮的文本。
```
# Assuming this link text is unique on the page, which I suspect it is
mech.click next_page.text
```
完全重新阅读问题后进行编辑：但是，这对您没有任何帮助，因为Mechanize 不是网络浏览器！它没有 JavaScript 引擎，因此不会（不能）onclick为您执行。为此，您需要使用 Ruby 来控制真正的网络浏览器，例如使用Watir或Selenium或Celerity等。

score 3 · Accepted Answer

一般来说，你会这样做：

page.link_with(:node => next_link).click

然而，就像 Phrogz 所说，这不会真正做到你想要的。

score 0 · Accepted Answer

为什么不使用 hpricot 元素呢？只要链接具有“src”或“href”属性，Mechanize 就可以单击 hpricot 元素。尝试以下方式：

page = agent.get("http://www.example.com")
next_page = agent.click((page/"//your/xpath/a"))

编辑阅读 Phrogz 的回答后，我也意识到这不会真正做到。Mechanize 还不支持 Javascript。考虑到这一点，您有 3 个选项。

使用控制真实网络浏览器的库。请参阅@Phrogz 答案。
使用Capybara，它是一个集成测试库，但也可以用作独立的爬虫。我已经使用HTMLUnit成功地完成了这项工作，它也是 Java 中的一个集成测试库。Capybara 默认支持 Selenium，尽管它也通过外部 gem 支持 Webkit。Capybara 开箱即用地解释 Javascript。这篇博文可能会有所帮助。
Grok 您打算抓取的页面并使用HTTPFox之类的东西来监视 onclick Javascript 函数的作用，并将其复制到您的 Mechanize 脚本中。

祝你好运。

ruby - 单击带有 Mechanize 的 xpath 链接

3 回答 3

Related

Reference