问题标签 [feedparser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
rss - 检测新的 RSS 提要条目
我正在使用feedparser来处理 RSS。我定期(例如每 15 分钟)获取带有项目的 RSS 频道并将其存储。在频道中通常没有任何新项目。所以,效率不高。
有没有办法快速检测频道中是否有一些新项目,如果没有,则对该频道不执行任何操作?
谢谢你
python - 什么可能导致 UnicodeEncodeError 异常潜入工作的 Python 环境?
我的脚本中有一个方法可以提取 Twitter RSS 提要,使用 FeedPharser 对其进行解析,使用 twilio 模块将其包装在 TwiML(Twilio 风格的 XML)中,然后通过 str() 在 CherryPy 方法中返回结果响应。这在开发环境(Kubuntu 10.10)中工作得很好;我的服务器上的结果好坏参半(Linode 上的 Ubuntu Server 10.10)。
在最初的几个月里,一切都很好。然后,上述方法开始失败,如下所示:
UnicodeEncodeError:'ascii' 编解码器无法在位置 259 编码字符 u'\u2019':序数不在范围内(128)
但是,当我在相同的提要上运行完全相同的代码时,使用相同的 python 版本,在相同的操作系统上,在我的开发框中,代码执行得很好。但是,我应该注意,即使它可以正常工作,某些字符也不会正确输出。例如:
?
而不是
'
为了解决这个异常,我只是从头开始重建我的 VPS,它工作了几个月,然后错误又回来了。
服务器会自动安装更新的 Ubuntu 软件包,但我的开发箱也是如此。我想不出任何可能导致这种情况的东西。任何帮助表示赞赏。
python - 使用 feedparser 填充 Django DateTimeField
我正在尝试使用 feedparser 将学校的体育/活动日历(以 iCal 或 RSS 格式提供)读入 Django Events 模型。
一切正常,除了日期。Feedparser 用“9 元组”填充 item.updated_parsed,但我不知道如何将它变成 Django 将在 DateTimeField 中接受的东西。(我以前用过这些,但它们只被 datetime.datetime.now() 填充过)。
有任何想法吗?
python - Twitter RSS 提要双转义特殊字符?以及如何使用 Universal Feed Parser 处理这个问题?
我正在使用通用提要解析器解析一组提要
看起来当 twitter 生成 RSS 提要时,它会双重转义<description />
字段中的某些特殊字符。例如,假设我发推文:
我无法解析这个!
这实际上是
在 HTML 实体中。
当您查看来自 Twitter 的 RSS 或 Atom 提要的纯 XML 时,它是这样呈现的:
Universal Feed Parser 似乎对此有一些严重的问题。当您解析出其中一个条目并查看它如何解析它时,您最终会得到:
在屏幕上呈现为
我可以&apost解析这个!
有什么想法可以让它表现出来吗?当我在 Firefox 中打开提要时,实体被正确处理,因此很明显可以正确解析字符串。
我很确定 Universal Feed Parser 的行为不正确,但我很难找到需要修复的代码部分。
我也很困惑,因为网站上写着:“3000 个单元测试”。
当然,其中一个测试会查看包含实体的提要吗?
wordpress - FeedWordPress 无法正确解析图像
我最近安装了 WordPress,并且一直在慢慢学习如何使用它。我已经尝试解决这个问题大约一个小时了,但我似乎无法找到问题所在。
无论我添加什么提要FeedWordPress
,它都无法正确解析图像。(但确实如此,请参见此处):http ://ttgdark.com/
这就像它完全删除了 src 标签中图像的路径。
有谁知道发生了什么?
python - 如何“清理”feedparser 提要中的所有条目
我以 Google 的 XML 格式备份了我的博客。它很长。到目前为止,我已经这样做了:
在我正在阅读的书中,作者这样做:
这对我来说是逐个条目的。如您所见,我已经有了一种使用 NLTK 清理 HTML 的方法。但我真正想要的是获取所有条目,将它们从 HTML 中清除(我已经知道该怎么做,而不是问怎么做,请仔细阅读问题),然后将它们作为明文字符串。这与正确使用 feedparser 有关。有没有一种简单的方法可以做到这一点?
更新:
事实证明,我仍然没有找到一种简单的方法来做到这一点。由于我对 python 的无能,我被迫做一些有点丑陋的事情。
这就是我想我会做的:
所以,非常感谢@Rob Cowie,但你的版本(看起来很棒)不起作用。我为没有早点指出这一点并接受答案而感到难过,但我没有太多时间来处理这个项目。我在下面放的东西就是我可以开始工作的全部内容,但是如果有人有更优雅的东西,我会留下这个问题。
然后我 CTRL-D 退出解释器,因为我不知道如何在不关闭 Python 标准输出的情况下关闭打开的文件。然后我重新进入解释器,打开文件,读取文件,并从那里清理 HTML。(nltk.html_clean 是 NLTK 书本身的在线版本中的一个错字,顺便说一下……它实际上是 nltk.clean_html)。我最终得到的几乎是但不完全是纯文本。
python - Feedparser 日期参数/时间特定查询
feedparser 中是否有一个选项可以仅查询比 feed.updated 更新的新条目?
或者您可以设置一个参数以仅获取特定日期/今天/周等的条目吗?(Safari 的 RSS 阅读器提供了这个选项……)
android - 如何加快 RSS Parser 解析提要和缩略图的速度
我为我的播客应用程序编写了一个 rss 解析器。如果我用不同的播客解析 rss 提要并在 a 中显示结果,ListView
我的解析器解析整个提要大约需要 1-2 秒。
但是,如果我想在ListView
我BitmapFactory
的ImageView
.
不幸的是,这将我的执行时间从 1-2 秒延长到了 8-10 秒。
这就是我抓取缩略图的方式。有没有更好(更快)的方法来实现我想做的事情,如果有,我该如何实现?
提前致谢。