3

我正在使用 C# .Net4.0 在 Visual Studio 2010 中构建这个程序,目标是使用线程和队列来提高性能。

我有一个需要处理的网址列表。

string[] urls = { url1, url2, url3, etc.} //up to 50 urls

我有一个函数可以接收每个 url 并处理它们。

public void processUrl(string url) { 
    //some operation
}

最初,我创建了一个 for 循环来遍历每个 url。

for (i = 0; i < urls.length; i++)
    processUrl(urls[i]);

该方法有效,但程序很慢,因为它一个接一个地通过 url。

所以这个想法是使用线程来减少时间,但我不太确定如何解决这个问题。

假设我想创建 5 个线程同时处理。

当我启动程序时,它将开始处理前 5 个 url。完成后,程序开始处理第 6 个 url;当另一个完成时,程序开始处理第 7 个 url,依此类推。

问题是,我不知道如何实际创建一个 url 的“队列”并能够通过队列和进程。

谁能帮我这个?

-- 下午 1:42 编辑 --

当我同时运行 5 个进程时遇到了另一个问题。

processUrl功能涉及写入日志文件。如果多个进程同时超时,它们会同时写入同一个日志文件,我认为这会引发错误。

我假设这是问题所在,因为我收到的错误消息是“该进程无法访问文件'data.log',因为它正被另一个进程使用。”

4

3 回答 3

2

最简单的选择是只使用Parallel.ForEach. 如果processUrl是线程安全的,你可以写:

Parallel.ForEach(urls, processUrl);

我不建议限制为 5 个线程(调度程序将自动正常扩展),但这可以通过以下方式完成:

Parallel.ForEach(urls, new ParallelOptions { MaxDegreeOfParallelism = 5}, processUrl);

话虽如此,从本质上讲,URL 处理通常受 IO 限制,而不是 CPU 限制。如果您可以使用 Visual Studio 2012,更好的选择是重新设计它以使用async该语言中的新支持。这需要将您的方法更改为更像:

public async Task ProcessUrlAsync(string url)
{
    // Use await with async methods in the implementation...

然后您可以async在循环中使用新的支持:

// Create an enumerable to Tasks - this will start all async operations..
var tasks = urls.Select(url => ProcessUrlAsync(url));

await Task.WhenAll(tasks); // "Await" until they all complete
于 2013-07-05T16:22:04.540 回答
1

使用 Parallel Foreach 并将最大并行度设置为您想要的线程数(或将其留空并让 .NET 为您完成工作)

ParallelOptions parallelOptions = new ParallelOptions();

parallelOptions.MaxDegreeOfParallelism = 5;
Parallel.ForEach(urls, parallelOptions, url =>
{
   processUrl(url);
});
于 2013-07-05T16:25:06.183 回答
0

如果您真的想创建线程来完成您的任务而不是使用并行执行:

假设我希望每个 URL 有一个线程:

string[] urls = {"url1", "url2", "url3"};

我只是为每个 URL(或每个 5 个 URL)启动一个新的 Thread 实例:

foreach (var thread in urls.Select(url => new Thread(() => DownloadUrl(url))))
    thread.Start();

以及下载 URL 的方法:

private static void DownloadUrl(string url)
{
    Console.WriteLine(url);   
}
于 2013-07-05T16:24:09.907 回答