2

我正在用 C# 编写一个沉重的网络刮板。我希望它快速可靠。Parallel.Foreach 和 Parallel.For 太慢了。对于输入,我使用的是 URL 列表。我希望有多达 300 个线程同时工作(我的 cpu 和网络连接可以处理这个)。最好的方法是什么?使用任务会更好吗?有时线程会无缘无故地结束,并且某些结果不会被保存。我想要一种更可靠的方法来做到这一点。有任何想法吗?我想要一个更可靠的队列类型的抓取。我想出的(不是所有代码,而是重要部分):

        List <string> input = // read text file
        int total = words.Length;
        int maxThreads = 300;

        while (true)
        {
            if (activeThreads < maxThreads)
            {
               current++;
               Thread thread = new Thread(() => CrawlWebsite(words[current]));
               thread.Start();
            }
        }

        public static void CrawlWebsite(string word)
        {
            activeThreads++;

            // scraping part

            activeThreads--;
        }
4

2 回答 2

1

考虑使用 System.Threading.ThreadPool。对于具有许多线程的场景,它可能会更快一些,并且您不需要管理 activeThreads。相反,您可以使用 ThreadPool.SetMaxThreads() 和 SetMinThreads() 并且 ThreadPool 为您管理并行线程的数量。

顺便说一句,您的示例中缺少共享变量的同步。如何同步访问的方法之一是使用“锁定” - 请参阅http://msdn.microsoft.com/en-us/library/c5kehkcz.aspx

此外,您的线程运行方法 - CrawlWebsite() 应该处理 ThreadAbortException - 请参阅http://msdn.microsoft.com/en-us/library/system.threading.threadabortexception.aspx

于 2013-10-12T16:08:21.523 回答
1

我最近正在研究非常相似的问题,并且不认为使用任何大量线程会使其更快。最慢的想法通常是下载数据。拥有大量线程并不能使其更快,因为它们主要是在等待网络连接数据传输等。所以我最终有两个队列。一个是由一些只发送异步下载请求(一次 10-15 个请求)的线程处理的。响应被存储到另一个队列中,该队列进入另一个负责解析和数据处理的线程池(这里的线程数取决于您的 CPU 和处理算法)。

我还将所有下载的数据保存到数据库中。每当我想从网络上解析一些新信息时,我不需要重新下载内容,而只需要从数据库中解析缓存的网络(这样可以节省大量时间)

于 2013-10-12T16:20:46.020 回答