问题标签 [feedparser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
57 浏览

rss - RSS 中的日期语义

我正在阅读feedparser的文档。

它描述了与日期相关的 4 个属性

  1. 发表
  2. 更新
  3. 创建
  4. 已到期

这些属性对于RSS 规范意味着什么?它只描述pubDate

谢谢你

0 投票
1 回答
708 浏览

rss - 检测新的 RSS 提要条目

我正在使用feedparser来处理 RSS。我定期(例如每 15 分钟)获取带有项目的 RSS 频道并将其存储。在频道中通常没有任何新项目。所以,效率不高。
有没有办法快速检测频道中是否有一些新项目,如果没有,则对该频道不执行任何操作?

谢谢你

0 投票
2 回答
237 浏览

python - 什么可能导致 UnicodeEncodeError 异常潜入工作的 Python 环境?

我的脚本中有一个方法可以提取 Twitter RSS 提要,使用 FeedPharser 对其进行解析,使用 twilio 模块将其包装在 TwiML(Twilio 风格的 XML)中,然后通过 str() 在 CherryPy 方法中返回结果响应。这在开发环境(Kubuntu 10.10)中工作得很好;我的服务器上的结果好坏参半(Linode 上的 Ubuntu Server 10.10)。

在最初的几个月里,一切都很好。然后,上述方法开始失败,如下所示:

UnicodeEncodeError:'ascii' 编解码器无法在位置 259 编码字符 u'\u2019':序数不在范围内(128)

但是,当我在相同的提要上运行完全相同的代码时,使用相同的 python 版本,在相同的操作系统上,在我的开发框中,代码执行得很好。但是,我应该注意,即使它可以正常工作,某些字符也不会正确输出。例如:

?

而不是

'

为了解决这个异常,我只是从头开始重建我的 VPS,它工作了几个月,然后错误又回来了。

服务器会自动安装更新的 Ubuntu 软件包,但我的开发箱也是如此。我想不出任何可能导致这种情况的东西。任何帮助表示赞赏。

0 投票
2 回答
1602 浏览

python - 使用 feedparser 填充 Django DateTimeField

我正在尝试使用 feedparser 将学校的体育/活动日历(以 iCal 或 RSS 格式提供)读入 Django Events 模型。

一切正常,除了日期。Feedparser 用“9 元组”填充 item.updated_pa​​rsed,但我不知道如何将它变成 Django 将在 DateTimeField 中接受的东西。(我以前用过这些,但它们只被 datetime.datetime.now() 填充过)。

有任何想法吗?

0 投票
0 回答
254 浏览

python - Twitter RSS 提要双转义特殊字符?以及如何使用 Universal Feed Parser 处理这个问题?

我正在使用通用提要解析器解析一组提要

看起来当 twitter 生成 RSS 提要时,它会双重转义<description />字段中的某些特殊字符。例如,假设我发推文:

我无法解析这个!

这实际上是

在 HTML 实体中。

当您查看来自 Twitter 的 RSS 或 Atom 提要的纯 XML 时,它是这样呈现的:

Universal Feed Parser 似乎对此有一些严重的问题。当您解析出其中一个条目并查看它如何解析它时,您最终会得到:

在屏幕上呈现为

我可以&apost解析这个!

有什么想法可以让它表现出来吗?当我在 Firefox 中打开提要时,实体被正确处理,因此很明显可以正确解析字符串。

我很确定 Universal Feed Parser 的行为不正确,但我很难找到需要修复的代码部分。

我也很困惑,因为网站上写着:“3000 个单元测试”。

当然,其中一个测试会查看包含实体的提要吗?

0 投票
1 回答
805 浏览

wordpress - FeedWordPress 无法正确解析图像

我最近安装了 WordPress,并且一直在慢慢学习如何使用它。我已经尝试解决这个问题大约一个小时了,但我似乎无法找到问题所在。

无论我添加什么提要FeedWordPress,它都无法正确解析图像。(但确实如此,请参见此处):http ://ttgdark.com/

这就像它完全删除了 src 标签中图像的路径。

有谁知道发生了什么?

0 投票
1 回答
2446 浏览

python - 如何“清理”feedparser 提要中的所有条目

我以 Google 的 XML 格式备份了我的博客。它很长。到目前为止,我已经这样做了:

在我正在阅读的书中,作者这样做:

这对我来说是逐个条目的。如您所见,我已经有了一种使用 NLTK 清理 HTML 的方法。但我真正想要的是获取所有条目,将它们从 HTML 中清除(我已经知道该怎么做,而不是问怎么做,请仔细阅读问题),然后将它们作为明文字符串。这与正确使用 feedparser 有关。有没有一种简单的方法可以做到这一点?

更新:

事实证明,我仍然没有找到一种简单的方法来做到这一点。由于我对 python 的无能,我被迫做一些有点丑陋的事情。

这就是我想我会做的:

所以,非常感谢@Rob Cowie,但你的版本(看起来很棒)不起作用。我为没有早点指出这一点并接受答案而感到难过,但我没有太多时间来处理这个项目。我在下面放的东西就是我可以开始工作的全部内容,但是如果有人有更优雅的东西,我会留下这个问题。

然后我 CTRL-D 退出解释器,因为我不知道如何在不关闭 Python 标准输出的情况下关闭打开的文件。然后我重新进入解释器,打开文件,读取文件,并从那里清理 HTML。(nltk.html_clean 是 NLTK 书本身的在线版本中的一个错字,顺便说一下……它实际上是 nltk.clean_html)。我最终得到的几乎是但不完全是纯文本。

0 投票
1 回答
458 浏览

python - 无法使用 feedparser 从提要中检索多个标签

我有以下 XML 文档

我正在使用feedparser解析这个文档。我执行以下操作:

我观察到我只得到一个标签:

有多个问题标签:

但我只能检索最后一个。我想找回所有这些。

0 投票
1 回答
449 浏览

python - Feedparser 日期参数/时间特定查询

feedparser 中是否有一个选项可以仅查询比 feed.updated 更新的新条目?

或者您可以设置一个参数以仅获取特定日期/今天/周等的条目吗?(Safari 的 RSS 阅读器提供了这个选项……)

0 投票
1 回答
524 浏览

android - 如何加快 RSS Parser 解析提要和缩略图的速度

我为我的播客应用程序编写了一个 rss 解析器。如果我用不同的播客解析 rss 提要并在 a 中显示结果,ListView我的解析器解析整个提要大约需要 1-2 秒。

但是,如果我想在ListViewBitmapFactoryImageView.

不幸的是,这将我的执行时间从 1-2 秒延长到了 8-10 秒。

这就是我抓取缩略图的方式。有没有更好(更快)的方法来实现我想做的事情,如果有,我该如何实现?

提前致谢。