问题标签 [hpricot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
325 浏览

html - 获取 Hpricot 中元素的类型

我想遍历一个元素的子元素并仅过滤那些是 text 或 的元素span,例如:

但我找不到测试某个元素是哪种类型的方法。我该如何测试?我想知道,无论是否有更好的方法来做我想做的事情,但我也很欣赏这方面的建议。

0 投票
2 回答
188 浏览

html - 带索引的 Hpricot 循环?

我有以下 HTML 文档:

如何使用 Hpricot 循环列表项并在每个项的开头插入一些新的 HTML,以便获得以下内容:

如果新跨度的内容是固定的,我可以使用:

我的问题来自变量跨度的内容:如何在前置循环中使用索引?

0 投票
2 回答
706 浏览

ruby - 使用 HPricot 查找链接文件

我一直在玩 HPricot,但经过大量搜索后,我无法解决这个问题。

我正在尝试解析 HTML 页面并找到所有带有 href 到 mp3 文件的标签。到目前为止我有

哪个工作正常,一个正则表达式/href\s*=\s*\"([^\"]+)(.mp3)/也可以。我只是不确定如何将两者结合起来。

是否有一个很好的例子,或者有人可以指出我的文档,以便弄清楚我可以用 .search 功能做什么。

谢谢

0 投票
2 回答
889 浏览

ruby - 如何使用 Hpricot/Nokogiri 检测 mailto 链接

我想匹配这样的链接<a href="mailto:my@email.com">foo</a>,但这仅适用于 Nokogiri:

这样做的正确方法是什么?我如何使用 Hpricot 做到这一点?

0 投票
2 回答
223 浏览

xml - 检查 hpricot 中元素的空性

假设这是位置元素:<.location>blah...<./location>

它可以像这样为空:<.location/>

有没有办法检测空元素中的反斜杠以便不返回它?

0 投票
1 回答
2219 浏览

html - 使用 Hpricot 进行 HTML 抓取(使用 Ruby on Rails)

我已经阅读了大量的教程来提供帮助,在 Hpricot 下,我发现它的问题是没有刮掉所有的 Html 可以这么说。我会详细说明:

我试图刮掉 html 的网站是http://yellowpages.com.mt/Malta-Search/Radio-In-Malta-Gozo.aspx.

我需要获取作为结果列出的链接(我需要为上述网站上的任何可能的 url 执行此操作,因此 RSS 或这样的东西是无益的,因为我需要程序在给定任何 url 的情况下即时读取它们我喂养。)

我已经尝试了一切来获得我需要的特定 ID(在直接 XPATH 中给出等等)但我意识到当我这样做时

提供的结果不包括与我需要的链接相关的所有 html!因此,无论我使用哪种方法来刮擦,它都找不到所需的元素,因为根据 hpricot,它们不存在。

当我在 Firefox 中查看源代码时,我确实看到了它们,所以我很困惑。有没有人知道如何解决这个问题?多年来我一直在努力寻找自己的方式,但我无法独自找到解决方案!任何帮助将不胜感激

0 投票
2 回答
1532 浏览

html - 使用 Hpricot (Ruby On Rails) 抓取 Google 地图的 Html / 脚本

我在抓取代码时遇到问题,我需要为我正在创建的 Web MashUp 提取信息。

基本上,我正在尝试从以下位置抓取代码:

这只是我需要抓取的页面之一,因此我无法直接向程序提供我需要的代码 =/。

当我使用以下代码(在 Hpricot 中)抓取页面时

我注意到,我只看到了脚本参考,而不是我需要的代码部分,即

Beautimport Ltd (Balmain Hair Extensions) 在马耳他 | 黄页??(马耳他)有限公司 | YellowPages.com.mt

这也是我在 Firefox 上查看源代码时看到的。但是,当我将鼠标悬停在 Firebug 中的元素上时,我能够获得一个 XPath,但不幸的是,由于脚本引用仍然如此,它无法正常工作。(我不确定我的解释是否正确)。由于脚本(目前只能在萤火虫中查看),我真的需要页面上生成的所有代码。我需要这个,以便我可以提取以下内容(通过将鼠标悬停在地图上的 Google 图标上从萤火虫中获取:

它给出了以下 Xpath(//表示一个 tbody),但正如我所提到的,因为它没有在 Hpricot 中给出整个代码,所以它非常没用,因为它无法获得它!

通过这种方式,我将能够提取我的项目真正需要的 Lng 和 Lat。我真的不知道如何使用 Hpricot 以另一种方式解决这个问题,因为它没有给我我需要的所有代码。任何帮助将不胜感激。

0 投票
5 回答
9666 浏览

ruby - 在 Windows 上的 Ruby 1.9.1 上安装 Hpricot

我正在尝试使用以下命令安装 hpricot:

p>

它提到我需要安装“开发工具”,但我不知道它指的是什么。有什么建议么?

0 投票
3 回答
4541 浏览

html - 使用 Hpricot (Ruby on Rails) 抓取隐藏的 HTML(当 visible = false 时)

我遇到了一个不幸的是我似乎无法超越的问题,不幸的是,我也只是 Ruby on rails 的新手,因此问题的数量

我正在尝试抓取如下网页:

我想抓取下一页的地址、电话和 URL,在这种情况下是

我一直在尝试任何我能想到的东西,但似乎没有任何效果,因为它们被设置为不可见左右。

地址在h3标记内,但似乎不可废弃。我也一直在从以下 url 研究 ScRUBYt http://www.rubyrailways.com/ajax-scraping-with-scrubyt-linkedin-google-analytics-yahoo-suggestions/,但我似乎真的找不到在这种情况下如何应用它们的正面或反面。

我真的很感激任何指示,因为这是我真正需要克服的障碍才能继续完成我的任务。提前感谢您的帮助。

0 投票
1 回答
194 浏览

model-view-controller - netbeans 中的 hpricot

我正在尝试在 JRuby 中使用 hpricot。我的问题如下。如果我有这个代码:

我把它放在哪里?进入我的控制器?因为它在那里不接受它。如果我应该把它放在我的模型中。我怎么能从我的角度来称呼它?

谢谢

尝试wired.com网站时出现此错误

ProductsController#create 中的 Errno::ENOENT

没有这样的文件或目录 - 找不到文件 - www.wired.com

RAILS_ROOT:H:\Documents and Settings/owner/My Documents/NetBeansProjects/RailsApplication5