问题标签 [feedparser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 为什么 Netflix.com NewWatchInstantlyRSS 提要条目中没有任何日期(使用提要解析器解析时)?
以下输出:
是:
根据http://feedparser.org/docs/common-rss-elements.html,条目中应该有一个“日期”元素。
一个线索可能是,当我在 Firefox 或 Safari(在 Mac OS X 上)上打开http://www.netflix.com/NewWatchInstantlyRSS时,我看不到任何日期。(实际上,Safari 将我打开提要的日期和时间放在每个元素旁边。)但不知何故,Google Reader 会获取每个元素的唯一日期。(这就是我在上面选择条目 177 的原因——这是“Dare”的索引,根据谷歌阅读器,这是今天的第一个条目,旁边显示“8:32 AM”。)
我对 RSS 有什么不明白的地方吗?我是否缺少某种带有日期的交叉引用提要?我梳理了提要和几个条目中的所有条目,没有看到任何可能指向不同 URL 或任何类型日期的内容。
php - 如何检测页面是 RSS 还是 ATOM 提要
我目前正在用 PHP 构建一个新的在线提要阅读器。我正在开发的功能之一是提要自动发现。如果用户输入网站 URL,脚本将检测到它不是提要,并通过解析 HTML 以找到正确的<link>
标签来查找真正的提要 URL。
问题是,我目前检测 URL 是提要还是网站的方式仅在部分时间有效,而且我知道这不是最佳解决方案。现在我正在接受 CURL 响应并运行它simplexml_load_string
,如果它无法解析它,我将它视为一个网站。这是代码。
显然,这并不理想。此外,当它遇到一个可以解析的 HTML 网站时,它认为它是一个提要。
关于检测 PHP 中的提要或非提要之间差异的好方法有什么建议吗?
python - 如何解析““使用提要解析器?
rss 文件如下所示,我想获取media:group部分中的内容。我检查了 feedparser 的文档,但似乎没有提到这一点。怎么做?任何帮助表示赞赏。
ruby - Ruby - Feedzirra 和更新
试图让我的头脑在这里围绕Feedzirra。
我已经完成了所有设置和一切,甚至可以获得结果和更新,但是发生了一些奇怪的事情。
我想出了以下代码:
对,我在上面所做的,是从大提要开始,然后只获取更新。我确定我一定是在做一些愚蠢的事情,因为即使我能够获取更新并将它们存储在同一个实例变量中,但在第一次之后,我再也无法获得这些了。
显然,这是因为我只用更新覆盖了我的实例变量,并丢失了完整的提要对象。
然后我考虑将我的代码更改为:
好吧,我没有覆盖任何东西,这应该是正确的方法吗?
错了,这意味着我注定要总是尝试获取同一个静态提要对象的更新,因为虽然我得到了一个变量的更新,但我从来没有真正更新我的“静态提要对象”,新添加的项目将是附加到我的“feed.new_entries”,因为它们在理论上是新的。
我确定我在这里错过了一步,但如果有人能给我一些启发,我将不胜感激。我已经阅读了这段代码几个小时,但无法掌握它。
显然,如果我做了类似的事情,它应该可以正常工作:
因为这会用一个全新的提要对象重新初始化我的实例变量,并且更新会再次出现。
但这也意味着在那个确切时刻添加的任何新更新都会丢失,以及大量的矫枉过正,因为我必须再次加载该东西。
提前致谢!
python - 解析,在 python 中使用 feedparser 标记值!
我正在使用 feedparser 从 XML 文件中解析。但是我无法使用该文件中的 feedparser 解析<geo:lat>
标签<geo:long>
!你们知道如何在 python 中使用 feedparser 解析这些标签吗?
提前致谢!
python - 在 Thread 对象中运行 feedparser 时的跟踪/BPT 陷阱
我正在尝试运行一个线程来使用通用提要解析器解析链接列表,但是当我启动线程时,我得到了一个 Trace/BPT 陷阱。
这是我正在使用的代码:
有没有其他方法可以做到这一点?
Mac OS X 10.6.2 生成的报告链接:http: //simaom.com/trace.txt
谢谢
xml - Twitter 提要似乎既是 RSS 2.0 又是 Atom?
我正在解析各种站点提要,并整理了一个小型库来帮助我完成它。
查看Atom RFC和RSS 2.0 规范,来自Twitter的提要似乎是一种组合。Twitter 在 RSS 2.0 结构中指定一个 Atom 命名空间?
GitHub 使用 Atom,而 Flickr(提供多个但默认来自用户配置文件的“最新”提要)似乎是 RSS 2.0。
Twitter 如何指定一个 Atom 命名空间然后使用 RSS?
这使得解析提要有点模棱两可,除非我忽略任何指定的命名空间并只检查文档结构。
python - 正确解析 ATOM 提要
我目前已经设置了一个 Python 脚本,它使用feedparser来读取和解析它。但是,我最近遇到了日期解析的问题。我正在阅读的提要包含<modified>2010-05-05T24:17:54Z</modified>
- 在 Python 中作为日期时间对象出现 - 2010-05-06 00:17:54。请注意差异:提要条目在 5 月 5 日被修改,而 python 将其读取为 6 日。
所以问题是为什么会发生这种情况。通过将时间设置为 24:17:54,ATOM 提要(即创建提要的人)是错误的,还是我的 python 脚本在处理它的方式上是错误的。
我可以解决这个问题吗?
python - 将 feedparser 模块添加到 python
我最近使用 python 下载并安装了 feedparser,我尝试运行它,但 Netbeans 在导入时大喊:ImportError: No module named feedparser
重启了Netbeans,还是不行。
python - feedparser 在脚本运行期间失败,但无法在交互式 python 控制台中重现
当我运行 eclipse 或在 iPython 中运行我的脚本时,它失败了:
我不知道为什么,但是当我使用相同的 url 简单地执行 feedparse.parse(url) 语句时,没有抛出错误。这让我很难过。
代码很简单:
这是堆栈跟踪:
部分解决:
当传递给 feedparser.parse() 的 URL 是 unicode 时,这是可重现的。当它是一个 ascii URL 时,它不会重现。作为记录,您需要一个包含一些高字符 unicode 字符的提要。我不确定这是为什么。