0

我尝试使用 Feedjira 来协助对新闻源进行内容分析,但似乎 RSS 源现在只链接到内容,而不是像我在“ Feedjira 不添加内容和作者”中发现的那样将它们包含在 RSS 中。我打算使用 Feedjira 来获取文章的 URL,然后使用 Nokogiri 来抓取文章并挑选出相关部分。

问题是每个媒体的页面都有不同的格式,我需要知道 Nokogiri 从数据库(由 Feedjira 提供)获取 URL 的最佳方式,并取决于相关的提要标题(也是来自 Feedjira 的数据库同步)以特定方式抓取页面并将其保存到数据库中的单独表中。有人有什么建议吗?

4

2 回答 2

0

您遇到的问题是每个提要生成器的处理方式都有些不同,就像 HTML 生成器一样。您可以假设某些字段将出现在 RDF、RSS 或 ATOM 提要中,但是提要的作者可以使用您会发现非常有用的可选标签,因此您必须编写代码来查找它们。

我过去写过几个提要聚合器,其中一个每天处理超过 1000 个提要。通过嗅探提要类型,ATOM 与 RSS 与 RDF,然后我可以对给定该格式的有趣字段进行明智的检查,并在数据可用时提取数据。

预制解析器经常出错,要么抓取你不想要的数据并弄乱输出,要么跳过你想要在输出中留下空白的数据,所以如果你想正确地编写代码,请准备好编写代码.

您可能还想利用支持数据库,以跟踪您最后查看的内容以及您应该何时再次查看它;这是成为优秀网络公民的一部分。您还需要跟踪您查看的最后 n 次提要是否已关闭,以便您可以修剪死站点。

于 2017-01-17T18:43:30.760 回答
0

我不知道您的特殊用例,但我也在使用新闻提要进行内容分析。也许您会看一下Readability,它为您提供了一个通用的内容抓取工具。

于 2017-01-16T09:59:14.127 回答