ruby-on-rails - 如何使用具有不同要求的 Nokogiri 从数据库中抓取不同的 URL

Question

我尝试使用 Feedjira 来协助对新闻源进行内容分析，但似乎 RSS 源现在只链接到内容，而不是像我在“ Feedjira 不添加内容和作者”中发现的那样将它们包含在 RSS 中。我打算使用 Feedjira 来获取文章的 URL，然后使用 Nokogiri 来抓取文章并挑选出相关部分。

问题是每个媒体的页面都有不同的格式，我需要知道 Nokogiri 从数据库（由 Feedjira 提供）获取 URL 的最佳方式，并取决于相关的提要标题（也是来自 Feedjira 的数据库同步）以特定方式抓取页面并将其保存到数据库中的单独表中。有人有什么建议吗？

score 0 · Accepted Answer

您遇到的问题是每个提要生成器的处理方式都有些不同，就像 HTML 生成器一样。您可以假设某些字段将出现在 RDF、RSS 或 ATOM 提要中，但是提要的作者可以使用您会发现非常有用的可选标签，因此您必须编写代码来查找它们。

我过去写过几个提要聚合器，其中一个每天处理超过 1000 个提要。通过嗅探提要类型，ATOM 与 RSS 与 RDF，然后我可以对给定该格式的有趣字段进行明智的检查，并在数据可用时提取数据。

预制解析器经常出错，要么抓取你不想要的数据并弄乱输出，要么跳过你想要在输出中留下空白的数据，所以如果你想正确地编写代码，请准备好编写代码.

您可能还想利用支持数据库，以跟踪您最后查看的内容以及您应该何时再次查看它；这是成为优秀网络公民的一部分。您还需要跟踪您查看的最后 n 次提要是否已关闭，以便您可以修剪死站点。

score 0 · Accepted Answer

我不知道您的特殊用例，但我也在使用新闻提要进行内容分析。也许您会看一下Readability，它为您提供了一个通用的内容抓取工具。

2 回答 2