问题标签 [anemone]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
100 浏览

ruby - Ruby open_uri 总是 404。(允许 https 重定向 git 版本)

我正在使用允许 https 重定向的open-uri模块。

我想要做的是打开域中的每个页面。我首先通过海葵爬行来做到这一点:

我正在尝试打开它,然后将每一行打印到控制台,但是看起来好像我的控制台中打印的所有内容都是 404。查看我的代码,这意味着 open_uri 无法打开任何链接,即使它们是有效的据我所知。

我在这里想念什么?

将以下内容打印到控制台:

  • 更新

正如评论中所建议的,我尝试卷曲出现 404 错误的链接,并且输出中的控制台不返回 404 页面。我尝试了大约 40 个返回的链接,但在控制台中 curl 后没有一个返回 404。有什么想法吗?

0 投票
0 回答
296 浏览

ruby - 循环中的break语句不起作用

我是海葵宝石的新手。我写了以下代码:

在 break 语句中,我得到localjumperror: break from proc-closure。我不知道如何解决这个问题。

0 投票
1 回答
522 浏览

ruby - 字符类有重复范围:/电子邮件的正则表达式/

xmpfilter 的结果

如果我不使用 {do~end},这正是我所期望的。如下所示。

在这里发帖让我再次意识到我的英语很烂……哈哈,我是日本人。这是我在 Stackoverflow 上的第一篇文章。

0 投票
1 回答
76 浏览

ruby - gems/anemone-0.7.2/lib/anemone/storage.rb:28:in `MongoDB': 未初始化的常量 Mongo::Connection (NameError)

使用 Anemone,尝试使用 MongoDB 时出现此错误:

代码如下所示:

有什么建议么?

0 投票
2 回答
674 浏览

ruby-on-rails - 需要使用 Anemone 登录的抓取页面

我以下列方式使用海葵宝石:

  • 访问第一个 url(种子),将页面内容保存到数据库,并将该页面的所有链接也保存到数据库(所有尚未在数据库中的链接)
  • 从数据库加载下一个链接,再次保存其内容和任何其他链接
  • 如果没有其他链接,再次抓取所有链接(一段时间后)以用新内容覆盖旧内容

这工作得很好,但是有没有可能如何爬取需要登录的页面(如果我知道用户名和密码)?我知道 Mechanize gem 提供填写表格的功能,但我不知道如何将它集成到我的流程中(如果可能的话)。或者有没有其他方法可以抓取登录表单“后面”的页面?

0 投票
1 回答
587 浏览

ruby-on-rails - Anemone - NoMethodError: nil:NilClass 的未定义方法“xpath”

我刚刚开始学习更多关于在 Ruby 中编写网络爬虫的信息,该爬虫旨在爬取我的博客并使用 Anemone gem 和下面的 rake 任务查找损坏的外部链接......

它正在我的演示文件夹上工作,但是,我一直在使用https://arthurdejong.org/webcheck/demo/对其进行测试,但出现以下错误:

我尝试构建一系列扩展,因为我确实想知道这是否是导致问题的原因,但到目前为止还没有运气。

有没有人有任何关于如何调试或解决问题的提示?

0 投票
1 回答
92 浏览

ruby - 海葵爬行者skip_links_like不服从

Anemone用来抓取一个大型网站,更糟糕的是,它在几个不同的语言版本上有相同的内容。

主要domain.com/语言和其他语言有domain.com/de/domain.com/es/所以我决定在爬网中排除这些,如下所示:

但是,当查看通过块puts page.url中的 a 抓取的内容时,on_every_page do |page|我可以看到它仍在抓取所有许多语言变体。

我什至试图包括这个

从要抓取的页面列表中的下一个考虑的内容中删除语言链接。

有什么建议么?

0 投票
2 回答
180 浏览

ruby - 使用 Ruby 的 Anemone Gem 从站点中抓取所有电子邮件地址

我正在尝试使用单个文件 Ruby 脚本来抓取给定站点上的所有电子邮件地址。在文件的底部,我有一个硬编码的测试用例,它使用了一个 URL,该 URL 在该特定页面上列出了一个电子邮件地址(因此它应该在第一个循环的第一次迭代中找到一个电子邮件地址。

出于某种原因,我的正则表达式似乎不匹配: