问题标签 [feedparser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
327 浏览

rss - 简单的雅虎管道不工作

我要做的就是将三个 RSS 提要合二为一,删除重复项(基于标题)并按发布日期对项目进行排序。所以我建造了这个管道(http://pipes.yahoo.com/nerdvanagr/olympiacosbc),它只是拒绝工作:如你所见,例如,第 4 项和第 7 项具有几乎完全相同的标题,因此其中之一他们不应该出现。关于什么可能是错的任何想法?

编辑:一般问题是稳定性,有时它有效,其他一些则不起作用......

0 投票
0 回答
78 浏览

feedparser - 基于 URL 读取的提要

我在这里有一个不同的问题。必须开发一个 iphone 应用程序,它将在其中显示来自提要的事件更新。

如果提要列表太大(我的意思是 xml 大小),那么返回结果需要很长时间。取而代之的是,我只能得到我想要的东西。

例如: http ://www.ted.com/talks/rss

这将返回所有热门演讲,但在这里我只能阅读一个基于谈话视频 ID 的演讲,例如http://www.ted.com/talks/rss?~3/6dqCdBTpEn0/1019

0 投票
2 回答
621 浏览

objective-c - 如果字符串包含解析器换行 -

我的 NSXMLParser 在这个字符串上中断:

我是这样解析的,希望是对的:

它返回给我:

str : AAA
str : -
str : BCDEFGQWERTYUIO

但我想返回一个字符串:

str : AAA - BCDEFGQWERTYUIO

因为它是正确的标题。

任何的想法?

谢谢。

0 投票
1 回答
2233 浏览

python - 如何使 Universal Feed Parser 仅解析提要?

我正在尝试使用Universal Feed Parser从我的 Django 网站上的外部提要获取内容。我想要一些用户错误处理,例如,如果用户提供的 URL 不是提要。当我尝试 feedparser 如何响应错误输入时,我惊讶地发现 feedparser 根本没有抛出任何异常。例如,在 HTML 内容上,它尝试从 HTML 代码中解析一些信息,而在不存在的域上,它返回一个大部分为空的字典:

其他错误输入在返回字典中的status_code或值中表现出来。namespaces

那么,在不诉诸无休止的级联的情况下进行合理的错误检查的最佳方法是if .. elif .. elif ...什么?

0 投票
2 回答
4423 浏览

python - 如何使用 Python 和 Universal Feed Parser 从这个 BBC 提要中获取图像

我正在使用此提要http://feeds.bbci.co.uk/news/rss.xml并希望获取所有 media:thumbnail 条目。即所有图像

该条目在 rss 中有这个:

所以,信息在那里,但我怎样才能得到它?

(我使用的是最新的 feedparser 版本 feedparser.version - > '4.2-pre-294-svn')

0 投票
2 回答
504 浏览

python - feedparser google appengine 推迟了没有条目?

我在谷歌应用引擎的延迟任务中使用 feedparser,如下所示:

然后在parse_dk_indeed_com我有以下代码片段:

我可以看到,当我记录asset.url 时,它返回一个有效的URL,并且我知道提要中有项目。但是当我记录len(d['entries'])它返回0?当我使用nosetest运行相同的代码片段时,以下测试通过:

我错过了什么?

0 投票
3 回答
404 浏览

python - 从不同用户代理获取相同 RSS 提要的不同结果

如果我将提要 URL 添加到 Google 阅读器或桌面提要聚合器,我会收到很好的结果。网址是:

http://estaticos03.marca.com/rss/futbol_1adivision.xml

但是,当我从脚本(python 脚本,使用 feedparser 库)中获取相同的 URL 时,我得到的相同结果的内容略有不同(例如,每个条目的标题不同,并且全部大写)。

我相信在服务器端做了一些事情来阻止像我这样的人为我自己的项目解析内容(提要来自流行的足球报纸),但我不确定。我试图通过一些用户代理(比如谷歌阅读器)但仍然没有运气,所以也许他们也检查了 IP?我真的很困惑。

知道为什么这会发生在我身上吗?

谢谢!

0 投票
2 回答
5128 浏览

python - 可以用什么代替 parse_qs 函数

我有以下代码用于解析 youtube 提要并返回 youtube 电影 ID。如何将其重写为与 python 2.4 兼容,我认为它不支持parse_qs功能?

0 投票
3 回答
1980 浏览

rss - 如何处理 RSS 提要中的非唯一项目 GUID/ID?

当 RSS 客户端遇到包含具有相同 guid/标识符的多个项目的提要时,它应该有什么正确响应?

目前在我的应用程序中,任何使用现有 guid 的项目都不会被缓存或显示,因为它认为它已经拥有该项目。

在此示例中,许多项目共享此 ID:

0 投票
2 回答
1013 浏览

ruby-on-rails - 在数据库中存储媒体 RSS 和 iTunes 播客 RSS 提要

我希望能够将媒体 RSSiTunes 播客RSS 提要存储到数据库中。这里的要求是我不想错过提要中的任何元素或其属性。在提要中找到所有最常见的元素并将它们作为单独的列存储在数据库中是有意义的。这里的问题是可能存在可能不是标准的特定饲料元素。我也想抓住他们。由于我不知道它们可以是什么,所以我不会为它们设置专门的专栏。

目前我有 2 个表,称为 feeds 和 feed_entries。对于像附件、类别这样的 RSS 2.0 标签,我有单独的表,它们与提要/提要条目有关联。我正在使用 feedzirra 来解析提要。Feedzirra 要求我们知道要解析的提要中的元素,因此我们不知道提要是否包含超出 feedzirra 可以理解的元素。

将这些提要存储在数据库中并且不会错过任何信息的最佳方法是什么?(将整个提要转储到数据库中是行不通的,因为我们想查询大部分属性)。什么解析器最适合?选择 Feedzirra 是为了提高性能,但是,将提要中的所有数据都放入数据库是一个优先事项。

更新

我使用 MySQL 作为数据库。