0

我创建了一个 Facebook 风格的 URL 抓取工具来发布内容。

当有人输入一个 URL 时,它会发送一个请求,在后端,我使用 Nokogiri 抓取 URL 以提取信息来构建帖子。

它适用于所有其他网站,如 apple.com、sony.com,但是当我使用来自我的原始域(“mywebsite.com”)的链接时它超时,除了 Heroku 在 30 秒后超时请求之外没有显示错误. 如果我从计算机上的本地主机上抓取我的域,它就可以工作。

是否有某种来源规则阻止 Nokogiri 抓取来自同一域的页面?

我正在使用 Ruby On Rails 3.1.10、Nokogiri 1.4.7 和 Heroku Cedar Stack。

4

1 回答 1

1

抓取是在后台作业中运行还是通过网络工作者运行?你只有1个dyno吗?如果您的应用只有 1 个网络工作者,那么它可能正忙于尝试抓取,因此无法提供该页面。

尝试将您的测功机缩放到 2,看看问题是否仍然存在。

heroku ps:scale web=2
于 2013-02-09T10:12:08.220 回答