问题标签 [feedparser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
145 浏览

python - 为什么 Netflix.com NewWatchInstantlyRSS 提要条目中没有任何日期(使用提要解析器解析时)?

以下输出:

是:

根据http://feedparser.org/docs/common-rss-elements.html,条目中应该有一个“日期”元素。

一个线索可能是,当我在 Firefox 或 Safari(在 Mac OS X 上)上打开http://www.netflix.com/NewWatchInstantlyRSS时,我看不到任何日期。(实际上,Safari 将我打开提要的日期和时间放在每个元素旁边。)但不知何故,Google Reader 会获取每个元素的唯一日期。(这就是我在上面选择条目 177 的原因——这是“Dare”的索引,根据谷歌阅读器,这是今天的第一个条目,旁边显示“8:32 AM”。)

我对 RSS 有什么不明白的地方吗?我是否缺少某种带有日期的交叉引用提要?我梳理了提要和几个条目中的所有条目,没有看到任何可能指向不同 URL 或任何类型日期的内容。

0 投票
4 回答
7228 浏览

php - 如何检测页面是 RSS 还是 ATOM 提要

我目前正在用 PHP 构建一个新的在线提要阅读器。我正在开发的功能之一是提要自动发现。如果用户输入网站 URL,脚本将检测到它不是提要,并通过解析 HTML 以找到正确的<link>标签来查找真正的提要 URL。

问题是,我目前检测 URL 是提要还是网站的方式仅在部分时间有效,而且我知道这不是最佳解决方案。现在我正在接受 CURL 响应并运行它simplexml_load_string,如果它无法解析它,我将它视为一个网站。这是代码。

显然,这并不理想。此外,当它遇到一个可以解析的 HTML 网站时,它认为它是一个提要。

关于检测 PHP 中的提要或非提要之间差异的好方法有什么建议吗?

0 投票
2 回答
2800 浏览

python - 如何解析““使用提要解析器?

rss 文件如下所示,我想获取media:group部分中的内容。我检查了 feedparser 的文档,但似乎没有提到这一点。怎么做?任何帮助表示赞赏。

0 投票
3 回答
2304 浏览

ruby - Ruby - Feedzirra 和更新

试图让我的头脑在这里围绕Feedzirra

我已经完成了所有设置和一切,甚至可以获得结果和更新,但是发生了一些奇怪的事情。

我想出了以下代码:

对,我在上面所做的,是从大提要开始,然后只获取更新。我确定我一定是在做一些愚蠢的事情,因为即使我能够获取更新并将它们存储在同一个实例变量中,但在第一次之后,我再也无法获得这些了。

显然,这是因为我只用更新覆盖了我的实例变量,并丢失了完整的提要对象。

然后我考虑将我的代码更改为:

好吧,我没有覆盖任何东西,这应该是正确的方法吗?

了,这意味着我注定要总是尝试获取同一个静态提要对象的更新,因为虽然我得到了一个变量的更新,但我从来没有真正更新我的“静态提要对象”,新添加的项目将是附加到我的“feed.new_entries”,因为它们在理论上是新的。

我确定我在这里错过了一步,但如果有人能给我一些启发,我将不胜感激。我已经阅读了这段代码几个小时,但无法掌握它。

显然,如果我做了类似的事情,它应该可以正常工作:

因为这会用一个全新的提要对象重新初始化我的实例变量,并且更新会再次出现。

但这也意味着在那个确切时刻添加的任何新更新都会丢失,以及大量的矫枉过正,因为我必须再次加载该东西。

提前致谢!

0 投票
2 回答
832 浏览

python - 解析,在 python 中使用 feedparser 标记值!

我正在使用 feedparser 从 XML 文件中解析。但是我无法使用该文件中的 feedparser 解析<geo:lat>标签<geo:long>!你们知道如何在 python 中使用 feedparser 解析这些标签吗?

提前致谢!

0 投票
1 回答
181 浏览

python - 在 Thread 对象中运行 feedparser 时的跟踪/BPT 陷阱

我正在尝试运行一个线程来使用通用提要解析器解析链接列表,但是当我启动线程时,我得到了一个 Trace/BPT 陷阱。

这是我正在使用的代码:

有没有其他方法可以做到这一点?

Mac OS X 10.6.2 生成的报告链接:http: //simaom.com/trace.txt

谢谢

0 投票
2 回答
825 浏览

xml - Twitter 提要似乎既是 RSS 2.0 又是 Atom?

我正在解析各种站点提要,并整理了一个小型库来帮助我完成它。

查看Atom RFCRSS 2.0 规范,来自Twitter的提要似乎是一种组合。Twitter 在 RSS 2.0 结构中指定一个 Atom 命名空间?

GitHub 使用 Atom,而 Flickr(提供多个但默认来自用户配置文件的“最新”提要)似乎是 RSS 2.0

Twitter 如何指定一个 Atom 命名空间然后使用 RSS?

这使得解析提要有点模棱两可,除非我忽略任何指定的命名空间并只检查文档结构。

0 投票
2 回答
1514 浏览

python - 正确解析 ATOM 提要

我目前已经设置了一个 Python 脚本,它使用feedparser来读取和解析它。但是,我最近遇到了日期解析的问题。我正在阅读的提要包含<modified>2010-05-05T24:17:54Z</modified>- 在 Python 中作为日期时间对象出现 - 2010-05-06 00:17:54。请注意差异:提要条目在 5 月 5 日被修改,而 python 将其读取为 6 日。

所以问题是为什么会发生这种情况。通过将时间设置为 24:17:54,ATOM 提要(即创建提要的人)是错误的,还是我的 python 脚本在处​​理它的方式上是错误的。

我可以解决这个问题吗?

0 投票
2 回答
1009 浏览

python - 将 feedparser 模块添加到 python

我最近使用 python 下载并安装了 feedparser,我尝试运行它,但 Netbeans 在导入时大喊:ImportError: No module named feedparser

重启了Netbeans,还是不行。

0 投票
2 回答
1844 浏览

python - feedparser 在脚本运行期间失败,但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行我的脚本时,它失败了:

我不知道为什么,但是当我使用相同的 url 简单地执行 feedparse.parse(url) 语句时,没有抛出错误。这让我很难过。

代码很简单:

这是堆栈跟踪:

部分解决:

当传递给 feedparser.parse() 的 URL 是 unicode 时,这是可重现的。当它是一个 ascii URL 时,它不会重现。作为记录,您需要一个包含一些高字符 unicode 字符的提要。我不确定这是为什么。