0

我正在使用以下过程解析 RSS 提要:

  1. 解析器运行一次,获取所有 RSS 项并存储运行时间;

  2. 然后每次它再次运行时,它都会检查一个 RSS 项目是否 pubDate比上次运行的时间晚,并将其存储在数据库中。

我的问题是,对于特定网站的提要,一些项目是在最后一个项目之后添加的,但具有相同的pubDate,所以我的解析器不存储它们。

例如,在晚上 9 点,它有一个项目,<pubDate>Fri, 01 Mar 2013 05:00:00 Z</pubDate> 然后在下午 12 点,它添加了另一个相同的项目pubDate

提要不提供guid.

有什么办法可以得到最新的货品吗?

这是我现在使用的代码

function getLatest($lastTimeRun, $data, $pubDates)
{
    $latestData = array();
    for($i=0;$i<sizeof($data);$i++)
    {
        $pubDates[$i] = strtotime($pubDates[$i]);
        //compare the last time the script run with each feed's item publish date                
        if($lastTimeRun < $pubDates[$i])
        {
            array_push($latestData, $data[$i]);
        }
    }

    return $latestData;
}
4

1 回答 1

1

我会简单地比较最后一个发布日期之后的最后一个 x 的标题以找到任何新条目,同时匹配其他数据以查看它是否真的是一个新条目。然后只需限制您要查找的最后 xx 个条目。

于 2013-03-01T10:50:48.810 回答