“feedparser”的相关标签问题

0 投票

1 回答

57 浏览

rss - RSS 中的日期语义

我正在阅读feedparser的文档。

它描述了与日期相关的 4 个属性

发表
更新
创建
已到期

这些属性对于RSS 规范意味着什么？它只描述pubDate

谢谢你

rss feedparser

2011-06-04T16:27:02.897

0 投票

1 回答

708 浏览

rss - 检测新的 RSS 提要条目

我正在使用feedparser来处理 RSS。我定期（例如每 15 分钟）获取带有项目的 RSS 频道并将其存储。在频道中通常没有任何新项目。所以，效率不高。
有没有办法快速检测频道中是否有一些新项目，如果没有，则对该频道不执行任何操作？

谢谢你

rss feedparser

2011-06-05T11:31:34.953

0 投票

2 回答

237 浏览

python - 什么可能导致 UnicodeEncodeError 异常潜入工作的 Python 环境？

我的脚本中有一个方法可以提取 Twitter RSS 提要，使用 FeedPharser 对其进行解析，使用 twilio 模块将其包装在 TwiML（Twilio 风格的 XML）中，然后通过 str() 在 CherryPy 方法中返回结果响应。这在开发环境（Kubuntu 10.10）中工作得很好；我的服务器上的结果好坏参半（Linode 上的 Ubuntu Server 10.10）。

在最初的几个月里，一切都很好。然后，上述方法开始失败，如下所示：

UnicodeEncodeError：'ascii' 编解码器无法在位置 259 编码字符 u'\u2019'：序数不在范围内（128）

但是，当我在相同的提要上运行完全相同的代码时，使用相同的 python 版本，在相同的操作系统上，在我的开发框中，代码执行得很好。但是，我应该注意，即使它可以正常工作，某些字符也不会正确输出。例如：

?

而不是

'

为了解决这个异常，我只是从头开始重建我的 VPS，它工作了几个月，然后错误又回来了。

服务器会自动安装更新的 Ubuntu 软件包，但我的开发箱也是如此。我想不出任何可能导致这种情况的东西。任何帮助表示赞赏。

python cherrypy feedparser

2011-06-06T00:22:50.800

0 投票

2 回答

1602 浏览

python - 使用 feedparser 填充 Django DateTimeField

我正在尝试使用 feedparser 将学校的体育/活动日历（以 iCal 或 RSS 格式提供）读入 Django Events 模型。

一切正常，除了日期。Feedparser 用“9 元组”填充 item.updated_parsed，但我不知道如何将它变成 Django 将在 DateTimeField 中接受的东西。（我以前用过这些，但它们只被 datetime.datetime.now() 填充过）。

有任何想法吗？

python django rss date feedparser

2011-06-09T01:57:58.803

0 投票

0 回答

254 浏览

python - Twitter RSS 提要双转义特殊字符？以及如何使用 Universal Feed Parser 处理这个问题？

我正在使用通用提要解析器解析一组提要

看起来当 twitter 生成 RSS 提要时，它会双重转义<description />字段中的某些特殊字符。例如，假设我发推文：

我无法解析这个！

这实际上是

在 HTML 实体中。

当您查看来自 Twitter 的 RSS 或 Atom 提要的纯 XML 时，它是这样呈现的：

Universal Feed Parser 似乎对此有一些严重的问题。当您解析出其中一个条目并查看它如何解析它时，您最终会得到：

在屏幕上呈现为

我可以&apost解析这个！

有什么想法可以让它表现出来吗？当我在 Firefox 中打开提要时，实体被正确处理，因此很明显可以正确解析字符串。

我很确定 Universal Feed Parser 的行为不正确，但我很难找到需要修复的代码部分。

我也很困惑，因为网站上写着：“3000 个单元测试”。

当然，其中一个测试会查看包含实体的提要吗？

python feedparser

2011-06-17T04:12:04.200

0 投票

1 回答

805 浏览

wordpress - FeedWordPress 无法正确解析图像

我最近安装了 WordPress，并且一直在慢慢学习如何使用它。我已经尝试解决这个问题大约一个小时了，但我似乎无法找到问题所在。

无论我添加什么提要FeedWordPress，它都无法正确解析图像。（但确实如此，请参见此处）：http ://ttgdark.com/

这就像它完全删除了 src 标签中图像的路径。

有谁知道发生了什么？

wordpress plugins feedparser

2011-06-26T03:01:46.510

0 投票

1 回答

2446 浏览

python - 如何“清理”feedparser 提要中的所有条目

我以 Google 的 XML 格式备份了我的博客。它很长。到目前为止，我已经这样做了：

在我正在阅读的书中，作者这样做：

这对我来说是逐个条目的。如您所见，我已经有了一种使用 NLTK 清理 HTML 的方法。但我真正想要的是获取所有条目，将它们从 HTML 中清除（我已经知道该怎么做，而不是问怎么做，请仔细阅读问题），然后将它们作为明文字符串。这与正确使用 feedparser 有关。有没有一种简单的方法可以做到这一点？

更新：

事实证明，我仍然没有找到一种简单的方法来做到这一点。由于我对 python 的无能，我被迫做一些有点丑陋的事情。

这就是我想我会做的：

所以，非常感谢@Rob Cowie，但你的版本（看起来很棒）不起作用。我为没有早点指出这一点并接受答案而感到难过，但我没有太多时间来处理这个项目。我在下面放的东西就是我可以开始工作的全部内容，但是如果有人有更优雅的东西，我会留下这个问题。

然后我 CTRL-D 退出解释器，因为我不知道如何在不关闭 Python 标准输出的情况下关闭打开的文件。然后我重新进入解释器，打开文件，读取文件，并从那里清理 HTML。（nltk.html_clean 是 NLTK 书本身的在线版本中的一个错字，顺便说一下……它实际上是 nltk.clean_html）。我最终得到的几乎是但不完全是纯文本。

python feedparser

2011-06-29T18:58:10.403

0 投票

1 回答

458 浏览

python - 无法使用 feedparser 从提要中检索多个标签

我有以下 XML 文档

我正在使用feedparser解析这个文档。我执行以下操作：

我观察到我只得到一个标签：

有多个问题标签：

但我只能检索最后一个。我想找回所有这些。

python xml feedparser atom-feed

2011-07-02T21:05:51.903

0 投票

1 回答

449 浏览

python - Feedparser 日期参数/时间特定查询

feedparser 中是否有一个选项可以仅查询比 feed.updated 更新的新条目？

或者您可以设置一个参数以仅获取特定日期/今天/周等的条目吗？（Safari 的 RSS 阅读器提供了这个选项……）

python rss feedparser

2011-07-10T17:16:06.823

0 投票

1 回答

524 浏览

android - 如何加快 RSS Parser 解析提要和缩略图的速度

我为我的播客应用程序编写了一个 rss 解析器。如果我用不同的播客解析 rss 提要并在 a 中显示结果，ListView我的解析器解析整个提要大约需要 1-2 秒。

但是，如果我想在ListView我BitmapFactory的ImageView.

不幸的是，这将我的执行时间从 1-2 秒延长到了 8-10 秒。

这就是我抓取缩略图的方式。有没有更好（更快）的方法来实现我想做的事情，如果有，我该如何实现？

提前致谢。

android xml parsing feedparser

2011-08-27T14:51:55.623

问题标签 [feedparser]

Reference