0

我已经使用 crawler4j 几个月了。我最近开始注意到它挂在一些网站上,永远不会回来。推荐的解决方案是将 resumable 设置为 true。这对我来说不是一个选择,因为我的空间有限。我进行了多次测试,发现挂起非常随机。它会在 90-140 个网址之间爬行,然后停止。我想可能是该站点,但站点 robots.txt 中没有任何可疑之处,所有页面都以 200 OK 响应。我知道爬虫没有爬取整个网站,否则它会关闭。什么可能导致这种情况,我应该从哪里开始?

有趣的是我用 nonBlocking 启动爬虫,然后是一个 while 循环检查状态

controller.startNonBlocking(CrawlProcess.class, numberOfCrawlers);

while(true){
  System.out.println("While looping");
}

当爬虫挂起时,while循环也停止响应,但线程仍然存在。这意味着整个线程没有响应。因此,我无法发送关机命令。

更新 我弄清楚是什么导致它挂起。我在访问方法中的 mysql 步骤中运行存储。该步骤如下所示:

public void insertToTable(String dbTable, String url2, String cleanFileName, String dmn, String AID, 
        String TID, String LID, String att, String ttl, String type, String lbl, String QL,
        String referrer, String DID, String fp_type, String ipAddress, String aT, String sNmbr) throws SQLException, InstantiationException, IllegalAccessException, ClassNotFoundException{
    try{
        String strdmn = "";
        if(dmn.contains("www")){
            strdmn = dmn.replace("http://www.","");
        }else{
            strdmn = dmn.replace("http://","");
        }
        String query = "INSERT INTO "+dbTable
                +" (url,filename, dmn, AID, TID, LID, att, ttl, type, lbl, tracklist, referrer, DID, searchtype, description, fp_type, ipaddress," +
                " aT, sNmbr, URL_Hash, iteration)VALUES('"
                +url2+"','"+cleanFileName+"','"+strdmn+"','"+AID+"','"+TID+"','"+LID+"','"+att+"','"+ttl+"','"+type+"'" +
                ",'"+lbl+"','"+QL+"','"+dmn+"','"+DID+"','spider','"+cleanFileName+"','"+fp_type+"'," +
                "'"+ipAddress+"','"+aT+"','"+sNmbr+"',MD5('"+url2+"'), 1) ON DUPLICATE KEY UPDATE iteration = iteration + 1";
        Statement st2 = null;
        con = DbConfig.openCons();
        st2 = con.createStatement();
        st2.executeUpdate(query);
        //st2.execute("SELECT NOW()");
        st2.close();
        con.close();
        if(con.isClosed()){
            System.out.println("CON is CLOSED");
        }else{
            System.out.println("CON is OPEN");
        }
        if(st.isClosed()){
            System.out.println("ST is CLOSED");
        }else{
            System.out.println("ST is OPEN");
        }
    }catch(NullPointerException npe){
        System.out.println("NPE: " + npe);
    }
}

非常有趣的是当我运行 st2.execute("SELECT NOW()"); 而不是当前的 st2.execute(query); 它工作正常,可以在不挂起的情况下抓取网站。但由于某种原因 st2.execute(query) 导致它在几次查询后挂起。它不是mysql,因为它不输出任何异常。我想也许我从 mysql 获得了“太多的连接”,但事实并非如此。我的过程对任何人都有意义吗?

4

1 回答 1

2

finally 块的重要性。

crawler4j 正在使用 c3p0 池插入到 mysql 中。几次查询后,爬虫将停止响应。多亏了@djechlin 的建议,结果证明是 c3p0 中的连接泄漏。我添加了一个如下所示的 finally 块,现在效果很好!

try{
   //the insert method is here
}catch(SQLException e){
  e.printStackTrace();
}finally{
  if(st != null){
    st.close();
  }
  if(rs != null){
   rs.close();
  }

}
于 2014-07-21T17:20:37.617 回答