问题标签 [anemone]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

38 问题

0 投票

0 回答

100 浏览

ruby - Ruby open_uri 总是 404。（允许 https 重定向 git 版本）

我正在使用允许 https 重定向的open-uri模块。

我想要做的是打开域中的每个页面。我首先通过海葵爬行来做到这一点：

我正在尝试打开它，然后将每一行打印到控制台，但是看起来好像我的控制台中打印的所有内容都是 404。查看我的代码，这意味着 open_uri 无法打开任何链接，即使它们是有效的据我所知。

我在这里想念什么？

还

将以下内容打印到控制台：

更新

正如评论中所建议的，我尝试卷曲出现 404 错误的链接，并且输出中的控制台不返回 404 页面。我尝试了大约 40 个返回的链接，但在控制台中 curl 后没有一个返回 404。有什么想法吗？

2014-03-26T12:02:24.253

0 投票

0 回答

296 浏览

ruby - 循环中的break语句不起作用

我是海葵宝石的新手。我写了以下代码：

在 break 语句中，我得到localjumperror: break from proc-closure。我不知道如何解决这个问题。

ruby anemone

2014-04-25T11:33:07.340

0 投票

1 回答

522 浏览

ruby - 字符类有重复范围：/电子邮件的正则表达式/

xmpfilter 的结果

如果我不使用 {do~end}，这正是我所期望的。如下所示。

在这里发帖让我再次意识到我的英语很烂……哈哈，我是日本人。这是我在 Stackoverflow 上的第一篇文章。

ruby regex web-scraping mechanize anemone

2014-09-14T05:22:39.840

0 投票

1 回答

76 浏览

ruby - gems/anemone-0.7.2/lib/anemone/storage.rb:28:in `MongoDB': 未初始化的常量 Mongo::Connection (NameError)

使用 Anemone，尝试使用 MongoDB 时出现此错误：

代码如下所示：

有什么建议么？

ruby mongodb gem anemone

2015-08-28T15:34:34.237

0 投票

2 回答

674 浏览

ruby-on-rails - 需要使用 Anemone 登录的抓取页面

我以下列方式使用海葵宝石：

访问第一个 url（种子），将页面内容保存到数据库，并将该页面的所有链接也保存到数据库（所有尚未在数据库中的链接）
从数据库加载下一个链接，再次保存其内容和任何其他链接
如果没有其他链接，再次抓取所有链接（一段时间后）以用新内容覆盖旧内容

这工作得很好，但是有没有可能如何爬取需要登录的页面（如果我知道用户名和密码）？我知道 Mechanize gem 提供填写表格的功能，但我不知道如何将它集成到我的流程中（如果可能的话）。或者有没有其他方法可以抓取登录表单“后面”的页面？

ruby-on-rails ruby web-crawler mechanize-ruby anemone

2016-04-16T07:26:41.680

0 投票

1 回答

587 浏览

ruby-on-rails - Anemone - NoMethodError: nil:NilClass 的未定义方法“xpath”

我刚刚开始学习更多关于在 Ruby 中编写网络爬虫的信息，该爬虫旨在爬取我的博客并使用 Anemone gem 和下面的 rake 任务查找损坏的外部链接......

它正在我的演示文件夹上工作，但是，我一直在使用https://arthurdejong.org/webcheck/demo/对其进行测试，但出现以下错误：

我尝试构建一系列扩展，因为我确实想知道这是否是导致问题的原因，但到目前为止还没有运气。

有没有人有任何关于如何调试或解决问题的提示？

ruby-on-rails ruby xpath anemone

2016-09-27T10:00:49.367

0 投票

1 回答

92 浏览

ruby - 海葵爬行者skip_links_like不服从

我Anemone用来抓取一个大型网站，更糟糕的是，它在几个不同的语言版本上有相同的内容。

主要domain.com/语言和其他语言有domain.com/de/，domain.com/es/所以我决定在爬网中排除这些，如下所示：

但是，当查看通过块puts page.url中的 a 抓取的内容时，on_every_page do |page|我可以看到它仍在抓取所有许多语言变体。

我什至试图包括这个

从要抓取的页面列表中的下一个考虑的内容中删除语言链接。

有什么建议么？

ruby anemone

2016-10-19T14:21:10.717

0 投票

2 回答

180 浏览

ruby - 使用 Ruby 的 Anemone Gem 从站点中抓取所有电子邮件地址

我正在尝试使用单个文件 Ruby 脚本来抓取给定站点上的所有电子邮件地址。在文件的底部，我有一个硬编码的测试用例，它使用了一个 URL，该 URL 在该特定页面上列出了一个电子邮件地址（因此它应该在第一个循环的第一次迭代中找到一个电子邮件地址。

出于某种原因，我的正则表达式似乎不匹配：

ruby anemone

2017-04-20T00:29:45.757

1 2 3 4 5 6 7 8 9 10

问题标签 [anemone]

Reference