问题标签 [anemone]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
578 浏览

ruby - 获取页面的所有域取决于使用 Nokogiri

我正在尝试使用 Nokogiri 获取特定页面所依赖的所有域/IP 地址。由于 Javascript 动态加载依赖项,它并不完美,但我很高兴尽最大努力获得:

  • 图片网址 <img src="..."
  • Javascript URL <script src="..."
  • CSS 和任何 CSS url(...) 元素
  • 框架和 IFrame

我还想关注任何 CSS 导入。

任何建议/帮助将不胜感激。该项目已经在使用 Anemone。

这就是我目前所拥有的。

代码会很棒,但我真的只是在指针之后,例如我现在发现我应该使用像css_parser这样的 css 解析器来解析任何 CSS 以查找图像的导入和 URL。

0 投票
1 回答
1050 浏览

ruby - anemone 忽略包含某个短语的 url 链接

我在 ruby​​ 上运行一个带有海葵的网络爬虫,当我的服务器访问需要登录的页面时,它给我的服务器带来了一些问题。

这些页面都有一个短语,比如 URL 中的“帐户”,我希望程序完全忽略并且不转到任何包含此字符串的目的地的链接。

我怎样才能做到这一点?

0 投票
1 回答
1365 浏览

ruby - Ruby Anemone 蜘蛛为访问的每个 url 添加标签

我有一个爬网设置:

但是,我希望蜘蛛在它访问的每个 URL 上使用谷歌分析反跟踪标签,而不必实际点击链接。

我可以使用一次蜘蛛并存储所有 URL 并使用WATIR运行它们添加标签,但我想避免这种情况,因为它很慢而且我喜欢 skip_links_like 和页面深度功能。

我怎么能实现这个?

0 投票
1 回答
806 浏览

ruby - 跳过扩展名为 pdf、zip 从 Anemone 中爬行的网页

我正在使用 anemone gem(Ruby- 1.8.7 和 Rails 3.1.1)开发爬虫。我应该如何从抓取/下载中跳过扩展名为 pdf、doc、zip 等的网页。

0 投票
2 回答
1187 浏览

ruby - Ruby+Anemone Web Crawler:正则表达式匹配以一系列数字结尾的 URL

假设我正在尝试抓取一个网站并跳过一个这样结束的页面:

http://HIDDENWEBSITE.com/anonimize/index.php?page=press_and_news&subpage=20060117

我目前在 Ruby 中使用 Anemone gem 来构建爬虫。我正在使用 skip_links_like 方法,但我的模式似乎永远不会匹配。我试图使其尽可能通用,因此它不依赖于子页面,而仅依赖于=2105925(数字)。

我已经尝试过/=\d+$//\?.*\d+$/但它似乎没有工作。

这类似于Skipping web-pages with extension pdf, zip from crawling in Anemone但我不能用数字而不是扩展名来实现它。

此外,使用该模式在http://regexpal.com/=\d+$上进行测试将成功匹配http://misc.com/test/index.php?page=news&subpage=20060118

编辑:

这是我的全部代码。我想知道是否有人可以确切地看到问题所在。

我的输出是这样的:

0 投票
2 回答
737 浏览

ruby - 使用 Anemone 爬行子域

我正在使用海葵。我如何也抓取子域?例如,如果我有网站,www.abc.com我的爬虫也应该爬取support.abc.comblah.abc.com. 我正在使用 Ruby 1.8.7 和 Rails 3。

0 投票
2 回答
2633 浏览

ruby - Ruby、Mongodb、Anemone:可能存在内存泄漏的网络爬虫?

我最近开始学习网络爬虫,我用 Ruby、AnemoneMongodb构建了一个示例爬虫用于存储。我正在一个可能有数十亿个链接的大型公共网站上测试爬虫。

crawler.rb 正在索引正确的信息,尽管当我在活动监视器中检查内存使用时,它显示内存不断增长。我只运行了爬虫大约 6-7 个小时,内存显示 mongod 为 1.38GB,Ruby 进程为 1.37GB。它似乎每小时增长约 100MB。

看来我可能有内存泄漏?他们是一种更优化的方式,我可以在内存升级失控的情况下实现相同的爬网,以便它可以运行更长时间?

0 投票
1 回答
734 浏览

mongodb - 海葵与 Rails 和 MongoDB

我正准备编写我的第一个网络爬虫,看起来Anemone最有意义。内置了对 MongoDB 存储的支持,我已经在我的 Rails 应用程序中通过 Mongoid 使用 MongoDB。我的目标是存储爬取的结果,然后通过 Rails 访问它们。我有几个担忧:

1)在本页末尾,写着注意:每个存储引擎都会在开始新的爬取之前清除现有的海葵数据。” 如果我使用默认内存存储,我希望这会在爬网结束时发生,但不应该将记录无限期地保存到 MongoDB,以便下次运行任务时不会爬网重复页面?如果它们在“开始新的爬网之前”被擦除,那么我应该在下一次爬网之前运行我的 Rails 逻辑吗?如果是这样,那么我最终将不得不检查之前抓取的重复记录。

2) 这是我第一次真正考虑在 Rails 模型的上下文之外使用 MongoDB。看起来记录是使用Page类创建的,所以我以后可以像通常使用 Mongoid 一样查询这些吗?我想一旦它有一个提供花哨方法的 ORM,它就被认为是一个“模型”?

0 投票
1 回答
626 浏览

ruby - 如何使用 ruby​​/anemone/nokogiri 从网站上刮取产品

是否可以使用 ruby​​ 中的 anemone 和 nokogiri 库从电子商务网站上抓取产品?

我了解如何使用 nokogiri 从每个产品页面提取我需要的数据,但我不知道如何让 anemone/nokogiri 抓取网站并抓取所有产品页面。

非常感谢朝着正确的方向推进

0 投票
3 回答
3468 浏览

ruby - 红宝石刮刀。如何导出为 CSV?

我编写了这个 ruby​​ 脚本来从制造商网站上抓取产品信息。产品对象的抓取和存储在数组中有效,但我不知道如何将数组数据导出到 csv 文件。抛出此错误:scraper.rb:45: undefined method `send_data' for main:Object (NoMethodError)

我不明白这段代码。这是在做什么,为什么它不能正常工作?

完整代码: