“hpricot”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

325 浏览

html - 获取 Hpricot 中元素的类型

我想遍历一个元素的子元素并仅过滤那些是 text 或的元素span，例如：

但我找不到测试某个元素是哪种类型的方法。我该如何测试？我想知道，无论是否有更好的方法来做我想做的事情，但我也很欣赏这方面的建议。

2009-10-27T20:10:07.317

0 投票

2 回答

188 浏览

html - 带索引的 Hpricot 循环？

我有以下 HTML 文档：

如何使用 Hpricot 循环列表项并在每个项的开头插入一些新的 HTML，以便获得以下内容：

如果新跨度的内容是固定的，我可以使用：

我的问题来自变量跨度的内容：如何在前置循环中使用索引？

html ruby-on-rails parsing hpricot

2009-10-30T02:57:55.073

0 投票

2 回答

706 浏览

ruby - 使用 HPricot 查找链接文件

我一直在玩 HPricot，但经过大量搜索后，我无法解决这个问题。

我正在尝试解析 HTML 页面并找到所有带有 href 到 mp3 文件的标签。到目前为止我有

哪个工作正常，一个正则表达式/href\s*=\s*\"([^\"]+)(.mp3)/也可以。我只是不确定如何将两者结合起来。

是否有一个很好的例子，或者有人可以指出我的文档，以便弄清楚我可以用 .search 功能做什么。

谢谢

ruby hpricot

2009-10-30T08:53:25.677

0 投票

2 回答

889 浏览

ruby - 如何使用 Hpricot/Nokogiri 检测 mailto 链接

我想匹配这样的链接<a href="mailto:my@email.com">foo</a>，但这仅适用于 Nokogiri：

~~这样做的正确方法是什么？~~我如何使用 Hpricot 做到这一点？

ruby screen-scraping css-selectors nokogiri hpricot

2009-11-02T23:00:52.737

0 投票

2 回答

223 浏览

xml - 检查 hpricot 中元素的空性

假设这是位置元素：<.location>blah...<./location>

它可以像这样为空：<.location/>

有没有办法检测空元素中的反斜杠以便不返回它？

xml ruby parsing hpricot

2009-11-04T15:09:07.140

0 投票

1 回答

2219 浏览

html - 使用 Hpricot 进行 HTML 抓取（使用 Ruby on Rails）

我已经阅读了大量的教程来提供帮助，在 Hpricot 下，我发现它的问题是没有刮掉所有的 Html 可以这么说。我会详细说明：

我试图刮掉 html 的网站是http://yellowpages.com.mt/Malta-Search/Radio-In-Malta-Gozo.aspx.

我需要获取作为结果列出的链接（我需要为上述网站上的任何可能的 url 执行此操作，因此 RSS 或这样的东西是无益的，因为我需要程序在给定任何 url 的情况下即时读取它们我喂养。）

我已经尝试了一切来获得我需要的特定 ID（在直接 XPATH 中给出等等）但我意识到当我这样做时

提供的结果不包括与我需要的链接相关的所有 html！因此，无论我使用哪种方法来刮擦，它都找不到所需的元素，因为根据 hpricot，它们不存在。

当我在 Firefox 中查看源代码时，我确实看到了它们，所以我很困惑。有没有人知道如何解决这个问题？多年来我一直在努力寻找自己的方式，但我无法独自找到解决方案！任何帮助将不胜感激

html ruby-on-rails screen-scraping hpricot

2009-11-09T22:26:26.240

0 投票

2 回答

1532 浏览

html - 使用 Hpricot (Ruby On Rails) 抓取 Google 地图的 Html / 脚本

我在抓取代码时遇到问题，我需要为我正在创建的 Web MashUp 提取信息。

基本上，我正在尝试从以下位置抓取代码：

这只是我需要抓取的页面之一，因此我无法直接向程序提供我需要的代码 =/。

当我使用以下代码（在 Hpricot 中）抓取页面时

我注意到，我只看到了脚本参考，而不是我需要的代码部分，即

Beautimport Ltd (Balmain Hair Extensions) 在马耳他 | 黄页？？（马耳他）有限公司 | YellowPages.com.mt

这也是我在 Firefox 上查看源代码时看到的。但是，当我将鼠标悬停在 Firebug 中的元素上时，我能够获得一个 XPath，但不幸的是，由于脚本引用仍然如此，它无法正常工作。（我不确定我的解释是否正确）。由于脚本（目前只能在萤火虫中查看），我真的需要页面上生成的所有代码。我需要这个，以便我可以提取以下内容（通过将鼠标悬停在地图上的 Google 图标上从萤火虫中获取：

它给出了以下 Xpath（//表示一个 tbody），但正如我所提到的，因为它没有在 Hpricot 中给出整个代码，所以它非常没用，因为它无法获得它！

通过这种方式，我将能够提取我的项目真正需要的 Lng 和 Lat。我真的不知道如何使用 Hpricot 以另一种方式解决这个问题，因为它没有给我我需要的所有代码。任何帮助将不胜感激。

html ruby-on-rails google-maps screen-scraping hpricot

2009-11-10T16:41:44.943

0 投票

5 回答

9666 浏览

ruby - 在 Windows 上的 Ruby 1.9.1 上安装 Hpricot

我正在尝试使用以下命令安装 hpricot：

p>

它提到我需要安装“开发工具”，但我不知道它指的是什么。有什么建议么？

ruby hpricot

2009-11-11T22:24:48.357

0 投票

3 回答

4541 浏览

html - 使用 Hpricot (Ruby on Rails) 抓取隐藏的 HTML（当 visible = false 时）

我遇到了一个不幸的是我似乎无法超越的问题，不幸的是，我也只是 Ruby on rails 的新手，因此问题的数量

我正在尝试抓取如下网页：

我想抓取下一页的地址、电话和 URL，在这种情况下是

我一直在尝试任何我能想到的东西，但似乎没有任何效果，因为它们被设置为不可见左右。

地址在h3标记内，但似乎不可废弃。我也一直在从以下 url 研究 ScRUBYt http://www.rubyrailways.com/ajax-scraping-with-scrubyt-linkedin-google-analytics-yahoo-suggestions/，但我似乎真的找不到在这种情况下如何应用它们的正面或反面。

我真的很感激任何指示，因为这是我真正需要克服的障碍才能继续完成我的任务。提前感谢您的帮助。

html ruby-on-rails screen-scraping hpricot scrubyt

2009-11-12T01:23:59.363

0 投票

1 回答

194 浏览

model-view-controller - netbeans 中的 hpricot

我正在尝试在 JRuby 中使用 hpricot。我的问题如下。如果我有这个代码：

我把它放在哪里？进入我的控制器？因为它在那里不接受它。如果我应该把它放在我的模型中。我怎么能从我的角度来称呼它？

谢谢

尝试wired.com网站时出现此错误

ProductsController#create 中的 Errno::ENOENT

没有这样的文件或目录 - 找不到文件 - www.wired.com

RAILS_ROOT：H:\Documents and Settings/owner/My Documents/NetBeansProjects/RailsApplication5

model-view-controller netbeans controller jruby hpricot

2009-11-22T21:39:17.270

问题标签 [hpricot]

Reference