2

我正在为我自己的网站编写一个小的网络爬虫。它似乎工作正常。我浏览了每个链接并检查它是否属于我的主页。如果找到链接,它会使用“addSite()”添加站点。这首先尝试获取 URl 相同的条目,如果没有任何条目,则添加 URl。否则,如果内容哈希更改,它会更新它。问题是它会添加 URl,即使它存在。

这是我的方法:

private bool addSite(string url, string title, string content)
{
    string hash = md5Hash(content);
    List<object[]> res = sql.executeReader(string.Format("SELECT `hash` FROM `sites` WHERE `url` = '{0}'", MySqlHelper.EscapeString(url)));
    if (res.Count > 0)
    {
        if (res[0][0].ToString() != hash)
        {
            sql.executeQuery(string.Format("UPDATE `sites` SET title = '{0}', content = '{1}', hash = '{2}' WHERE url = '{3}'", MySqlHelper.EscapeString(title), MySqlHelper.EscapeString(content), hash, MySqlHelper.EscapeString(url)));
            return true;
        }
        return false;
    }
    sql.executeQuery(string.Format("INSERT INTO `sites`(url, title, hash, content) VALUES('{0}', '{1}', '{2}', '{3}')", MySqlHelper.EscapeString(url), MySqlHelper.EscapeString(title), hash, MySqlHelper.EscapeString(content)));
    Console.WriteLine("Added: " + url);
    return true;
}

我希望任何人都能找到失败。非常感谢。

4

2 回答 2

2

如果有你不想重复的字段。为什么不将数据库字段设置为唯一的。并在您的程序中捕获错误,或者在存在时按照您的意愿进行操作。如果数据库允许它进入。那么字符串会因大写字母或空格等而有所不同。

于 2012-08-27T10:33:28.900 回答
1

我不确定,但也许你必须添加其他内容:

    private bool addSite(string url, string title, string content)
    {
        string hash = md5Hash(content);
        List<object[]> res = sql.executeReader(string.Format("SELECT `hash` FROM `sites` WHERE `url` = '{0}'", MySqlHelper.EscapeString(url)));
        if (res.Count > 0)
        {
            if (res[0][0].ToString() != hash)
            {
                sql.executeQuery(string.Format("UPDATE `sites` SET title = '{0}', content = '{1}', hash = '{2}' WHERE url = '{3}'", MySqlHelper.EscapeString(title), MySqlHelper.EscapeString(content), hash, MySqlHelper.EscapeString(url)));
                return true;
            }
            return false;
        }
        else
        {
            sql.executeQuery(string.Format("INSERT INTO `sites`(url, title, hash, content) VALUES('{0}', '{1}', '{2}', '{3}')", MySqlHelper.EscapeString(url), MySqlHelper.EscapeString(title), hash, MySqlHelper.EscapeString(content)));
            Console.WriteLine("Added: " + url);    
        }
    return true;
}
于 2012-08-27T10:47:03.437 回答