0

抱歉,标题太长了,也许现在我们来的时候混淆了一半。我正在询问有关如何从默认情况下未启用 RSS 的页面获取 RSS 提要的建议或指导。但这不是问题本身。问题是在该页面上我被要求输入用户名和密码。好吧,否则会是这样的事情......

问题:

获取未启用 RSS 提要的论坛的 RSS,并查看我们需要登录的“新闻”。

想到的可能解决方案:

  1. 有几个网站提供英文服务,以便在没有它们的页面上获取 RSS。这很好,但问题是当这些网站不提供使用用户名和密码登录我想要获取信息的网页的选项时,因此这些类型的网站被排除在外。
  2. 我没有通过 url 登录,因此将该 url 放在论坛上面列出的网站(第 1 项)上,并直接从 url 规范中使用用户名和密码变量:www.forosinrss/login.php?usuario = me & password = your pff我被退回论坛,告诉我我没有得到我们将得到正确的数据。另一个问题是密码是 md5 加密的,所以我无法使用 URL (fk T_T) 登录。
  3. 尝试使用“SELECT * FROM DB Internet”,或者换句话说,使用 YQL。但结果几乎和他们发现无法插入和登录用户和密码以及为论坛生成 cookie 一样多,我不高兴我投票了。

我需要建议、建议、提示或投诉。

4

2 回答 2

0

曾几何时,我用 PHP 编写了一个应用程序来执行此操作,结果还不错:

  • 使用 curl 获取页面并保留副本
  • 运行自定义过滤器正则表达式以选择实际重要的页面位(某些网站具有动态文本,如广告或仅显示当前日期和时间)
  • 超时后,使用 curl 再次获取页面并在其上运行相同的过滤器
  • 运行 diff old_page, new_page 并将结果通过管道传输到 rss 模板

该系统工作正常,但将页面过滤为我想要从中获取提要的内容并且它破坏了很多,因为这些类型的网站通常是手工编辑的,所以你不能保证任何一致性。

于 2010-09-21T04:47:16.383 回答
0

如果您觉得勇敢,可以使用 cURL 或 fsockopen 之类的东西下载页面,然后使用 XSLT 样式表将页面从 html 转换为 rss。

于 2010-09-21T04:26:41.387 回答