1

当 rss 地址没有像这个网站这样的全文时,一些网站可以获得全文 Rss 提要

我怎样才能做到这一点?

4

2 回答 2

3

我对 C# 了解不多,但我仍然可以就如何解决您的问题给出一个一般性的答案。RSS 提要(几乎)总是链接到文章,托管在报纸/博客的网站上,整篇文章都在该网站上可用。因此,“RSS 填充器”从网站内容中获取文章的内容,基本上将其放回提要中,替换可用的(简短的)介绍。

为此,您需要:

  • 解析/生成 RSS/Atoms 提要(我确信有很多 C# 库可以做到这一点)
  • 从原始 RSS 提要中链接的 html 页面中找到实际文章。实际上,链接页面包含很多您不想放入“完整”RSS 提要的内容(例如网站标题、导航栏、广告、评论、Facebook 按钮等)。最简单的方法是使用readability(一个快速的谷歌检查给出了这个库)。

如果你把这两者结合起来,你就可以实现你的目标。

您可以在http://fivefilters.org找到这种工具的一个实现,它们的源代码(对于旧版本)位于 /content-only/ http://code.fivefilters.org/full-text-rss /。它在 PHP 中,但它可以大致了解如何进行。

于 2013-06-08T11:19:00.837 回答
0

您可以从Full post rss feed网站获取放大部分 rss feed 的完整脚本。步骤包括: - 从 RSS feed 获取帖子 URL。
- 获取帖子 URL 的完整内容,它将使用 curl 获取内容。
- 解析内容,它为此使用模板。他们不断更新最流行网站和 wordpress 主题的模板。基于模板,将html内容解析为html dom对象,然后根据html dom对象查找内容。
- 最后,再次生成包含完整内容的 RSS 提要。

您可以检查用 PHP 编写的脚本以了解一些想法,稍后您可以将逻辑重写为任何语言。

于 2017-05-04T07:39:09.617 回答