“anemone”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

578 浏览

ruby - 获取页面的所有域取决于使用 Nokogiri

我正在尝试使用 Nokogiri 获取特定页面所依赖的所有域/IP 地址。由于 Javascript 动态加载依赖项，它并不完美，但我很高兴尽最大努力获得：

图片网址 <img src="..."
Javascript URL <script src="..."
CSS 和任何 CSS url(...) 元素
框架和 IFrame

我还想关注任何 CSS 导入。

任何建议/帮助将不胜感激。该项目已经在使用 Anemone。

这就是我目前所拥有的。

代码会很棒，但我真的只是在指针之后，例如我现在发现我应该使用像css_parser这样的 css 解析器来解析任何 CSS 以查找图像的导入和 URL。

2011-07-29T13:43:15.173

0 投票

1 回答

1050 浏览

ruby - anemone 忽略包含某个短语的 url 链接

我在 ruby 上运行一个带有海葵的网络爬虫，当我的服务器访问需要登录的页面时，它给我的服务器带来了一些问题。

这些页面都有一个短语，比如 URL 中的“帐户”，我希望程序完全忽略并且不转到任何包含此字符串的目的地的链接。

我怎样才能做到这一点？

ruby web-scraping anemone

2011-09-06T09:52:46.883

0 投票

1 回答

1365 浏览

ruby - Ruby Anemone 蜘蛛为访问的每个 url 添加标签

我有一个爬网设置：

但是，我希望蜘蛛在它访问的每个 URL 上使用谷歌分析反跟踪标签，而不必实际点击链接。

我可以使用一次蜘蛛并存储所有 URL 并使用WATIR运行它们添加标签，但我想避免这种情况，因为它很慢而且我喜欢 skip_links_like 和页面深度功能。

我怎么能实现这个？

ruby web-crawler anemone

2011-09-08T10:56:05.293

0 投票

1 回答

806 浏览

ruby - 跳过扩展名为 pdf、zip 从 Anemone 中爬行的网页

我正在使用 anemone gem（Ruby- 1.8.7 和 Rails 3.1.1）开发爬虫。我应该如何从抓取/下载中跳过扩展名为 pdf、doc、zip 等的网页。

ruby ruby-on-rails-3 ruby-on-rails-3.1 web-crawler anemone

2011-12-01T12:14:03.203

0 投票

2 回答

1187 浏览

ruby - Ruby+Anemone Web Crawler：正则表达式匹配以一系列数字结尾的 URL

假设我正在尝试抓取一个网站并跳过一个这样结束的页面：

http://HIDDENWEBSITE.com/anonimize/index.php?page=press_and_news&subpage=20060117

我目前在 Ruby 中使用 Anemone gem 来构建爬虫。我正在使用 skip_links_like 方法，但我的模式似乎永远不会匹配。我试图使其尽可能通用，因此它不依赖于子页面，而仅依赖于=2105925（数字）。

我已经尝试过/=\d+$/，/\?.*\d+$/但它似乎没有工作。

这类似于Skipping web-pages with extension pdf, zip from crawling in Anemone但我不能用数字而不是扩展名来实现它。

此外，使用该模式在http://regexpal.com/=\d+$上进行测试将成功匹配http://misc.com/test/index.php?page=news&subpage=20060118

编辑：

这是我的全部代码。我想知道是否有人可以确切地看到问题所在。

我的输出是这样的：

ruby regex ruby-on-rails-3 web-crawler anemone

2011-12-01T23:03:29.850

0 投票

2 回答

737 浏览

ruby - 使用 Anemone 爬行子域

我正在使用海葵。我如何也抓取子域？例如，如果我有网站，www.abc.com我的爬虫也应该爬取support.abc.com或blah.abc.com. 我正在使用 Ruby 1.8.7 和 Rails 3。

ruby web-crawler anemone

2012-02-15T07:16:40.840

0 投票

2 回答

2633 浏览

ruby - Ruby、Mongodb、Anemone：可能存在内存泄漏的网络爬虫？

我最近开始学习网络爬虫，我用 Ruby、Anemone和Mongodb构建了一个示例爬虫用于存储。我正在一个可能有数十亿个链接的大型公共网站上测试爬虫。

crawler.rb 正在索引正确的信息，尽管当我在活动监视器中检查内存使用时，它显示内存不断增长。我只运行了爬虫大约 6-7 个小时，内存显示 mongod 为 1.38GB，Ruby 进程为 1.37GB。它似乎每小时增长约 100MB。

看来我可能有内存泄漏？他们是一种更优化的方式，我可以在内存升级失控的情况下实现相同的爬网，以便它可以运行更长时间？

ruby mongodb memory-leaks web-crawler anemone

2012-02-22T12:46:06.260

0 投票

1 回答

734 浏览

mongodb - 海葵与 Rails 和 MongoDB

我正准备编写我的第一个网络爬虫，看起来Anemone最有意义。内置了对 MongoDB 存储的支持，我已经在我的 Rails 应用程序中通过 Mongoid 使用 MongoDB。我的目标是存储爬取的结果，然后通过 Rails 访问它们。我有几个担忧：

1）在本页末尾，写着“注意：每个存储引擎都会在开始新的爬取之前清除现有的海葵数据。” 如果我使用默认内存存储，我希望这会在爬网结束时发生，但不应该将记录无限期地保存到 MongoDB，以便下次运行任务时不会爬网重复页面？如果它们在“开始新的爬网之前”被擦除，那么我应该在下一次爬网之前运行我的 Rails 逻辑吗？如果是这样，那么我最终将不得不检查之前抓取的重复记录。

2) 这是我第一次真正考虑在 Rails 模型的上下文之外使用 MongoDB。看起来记录是使用Page类创建的，所以我以后可以像通常使用 Mongoid 一样查询这些吗？我想一旦它有一个提供花哨方法的 ORM，它就被认为是一个“模型”？

mongodb ruby-on-rails-3.1 mongoid web-crawler anemone

2012-02-24T06:10:20.033

0 投票

1 回答

626 浏览

ruby - 如何使用 ruby/anemone/nokogiri 从网站上刮取产品

是否可以使用 ruby 中的 anemone 和 nokogiri 库从电子商务网站上抓取产品？

我了解如何使用 nokogiri 从每个产品页面提取我需要的数据，但我不知道如何让 anemone/nokogiri 抓取网站并抓取所有产品页面。

非常感谢朝着正确的方向推进

ruby nokogiri scraper anemone

2012-05-20T07:02:09.773

0 投票

3 回答

3468 浏览

ruby - 红宝石刮刀。如何导出为 CSV？

我编写了这个 ruby 脚本来从制造商网站上抓取产品信息。产品对象的抓取和存储在数组中有效，但我不知道如何将数组数据导出到 csv 文件。抛出此错误：scraper.rb:45: undefined method `send_data' for main:Object (NoMethodError)

我不明白这段代码。这是在做什么，为什么它不能正常工作？

完整代码：

ruby fastercsv scraper anemone

2012-05-21T02:59:19.670

问题标签 [anemone]

Reference