0

如果我将提要 URL 添加到 Google 阅读器或桌面提要聚合器,我会收到很好的结果。网址是:

http://estaticos03.marca.com/rss/futbol_1adivision.xml

但是,当我从脚本(python 脚本,使用 feedparser 库)中获取相同的 URL 时,我得到的相同结果的内容略有不同(例如,每个条目的标题不同,并且全部大写)。

我相信在服务器端做了一些事情来阻止像我这样的人为我自己的项目解析内容(提要来自流行的足球报纸),但我不确定。我试图通过一些用户代理(比如谷歌阅读器)但仍然没有运气,所以也许他们也检查了 IP?我真的很困惑。

知道为什么这会发生在我身上吗?

谢谢!

4

3 回答 3

0

AFAIK Google Reader 在内容中做了一些“魔法”来美化它。他们剥离了一些标签和样式以避免破坏他们的界面。

您能否提供有关差异的更多详细信息?

于 2011-01-09T23:27:33.337 回答
0

好的,伙计们,我找到了。我分析了收到的源 XML(作为@TryPyPy)。我一直太信任 feedparser 库。最新的官方版本(4.1)有一个错误,与错误的媒体名称空间中的标题标签而不是原来的标签有关:

http://code.google.com/p/feedparser/issues/detail?id=76

所以我从主干重新安装,现在一切正常。无论如何感谢您的帮助!

于 2011-01-12T17:13:17.917 回答
0

您是否更改了脚本的用户代理?尝试模仿 Firefox,看看会发生什么。

于 2011-01-10T01:13:31.537 回答