4

我正在用 C# 编写一个应用程序,该应用程序循环浏览维基百科本地数据库副本的文章。我使用一堆正则表达式在这些文章中找到正确的信息,启动一个线程来获取每篇文章的图像,保存信息并转到下一篇文章。

我需要使用代理列表来下载这些图像,以免被谷歌禁止。由于代理可能很慢,我使用线程进行并行下载。

如果我不使用线程,则应用程序工作正常,但需要一段时间才能获取所有信息。

如果我使用线程,应用程序将一直工作,直到它使用大约 500 个线程,然后我得到一个 OutOfMemory 异常。

问题是它只使用了大约 300Mo 的 RAM,因此它不会使用可用总内存 (8Go) 和分配给单个 32 位应用程序的内存的所有内存。

每个应用程序有线程限制吗?

编辑:

这是下载海报的代码(从 getPosterAsc() 开始)。

    string ddlValue = "";
    private void tryDownload(object obj)
    {
        WebClient webClientProxy = new WebClient();
        Tuple<WebProxy, int> proxy = (Tuple<WebProxy, int>)((object[])obj)[0];
        if (proxy != null)
            webClientProxy.Proxy = proxy.Item1;
        try
        {
            ddlValue = webClientProxy.DownloadString((string)((object[])obj)[1]);
        }
        catch (Exception ex) { 
            ddlValue = "";

            Console.WriteLine("trydownload:" + ex.Message);
        }

        webClientProxy.Dispose();
    }

    public void getPoster(object options = null)
    {
        if (options == null)
            options = new object[2] { toSave, false };
        if (!AppVar.debugMode && AppVar.getImages && this.getImage)
        {
            if (this.original_name != "" && !this.ambName && this.suitable)
            {
                Log.CountImgInc();

                MatchCollection MatchList;
                string basic_options = "";
                string value = "";
                WebClient webClient = new WebClient();
                Regex reg;
                bool found = false;

                if (original_name.Split(' ').Length > 1) image_options = "";

                if (!found)
                {
                    bool succes = false;
                    int countTry = 0;
                    while (!succes)
                    {
                        Tuple<WebProxy, int> proxy = null;
                        if (countTry != 5)
                            proxy = Proxy.getProxy();

                        try
                        {
                            Thread t = new Thread(tryDownload);
                            if (!(bool)((object[])options)[1])
                                t.Start(new object[] { proxy, @"http://www.google.com/search?as_st=y&tbm=isch&as_q=" + image_options + "+" + basic_options + "+" + image_options_before + "%22" + simplify(original_name) + "%22+" + " OR %22" + original_name + "%22+" + image_options_after + this.image_format });
                            else
                                t.Start(new object[] { proxy, @"http://www.google.com/search?as_st=y&tbm=isch&as_q=" + image_options + "+" + basic_options + "+" + image_options_before + "%22" + simplify(original_name) + "%22+" + " OR %22" + original_name + "%22+" + image_options_after + "&biw=1218&bih=927&tbs=isz:ex,iszw:758,iszh:140,ift:jpg&tbm=isch&source=lnt&sa=X&ei=kuG7T6qaOYKr-gafsOHNCg&ved=0CIwBEKcFKAE" });
                            if (!t.Join(40000))
                            {
                                Proxy.badProxy(proxy.Item1.Address.Host, proxy.Item1.Address.Port);
                                continue;
                            }
                            else
                            {
                                value = ddlValue;
                                if (value != "")
                                    succes = true;
                                else
                                    Proxy.badProxy(proxy.Item1.Address.Host, proxy.Item1.Address.Port);
                            }
                        }
                        catch (Exception ex)
                        {
                            if (proxy != null)
                                Proxy.badProxy(proxy.Item1.Address.Host, proxy.Item1.Address.Port);
                        }
                        countTry++;
                    }

                    reg = new Regex(@"imgurl\=(.*?)&amp;imgrefurl", RegexOptions.IgnoreCase);
                    MatchList = reg.Matches(value);
                    if (MatchList.Count > 0)
                    {
                        bool foundgg = false;
                        int j = 0;
                        while (!foundgg && MatchList.Count > j)
                        {
                            if (MatchList[j].Groups[1].Value.Substring(MatchList[j].Groups[1].Value.Length - 3, 3) == "jpg")
                            {
                                try
                                {
                                    string guid = Guid.NewGuid().ToString();
                                    webClient.DownloadFile(MatchList[j].Groups[1].Value, @"c:\temp\" + guid + ".jpg");

                                    FileInfo fi = new FileInfo(@"c:\temp\" + guid + ".jpg");
                                    this.image_size = fi.Length;

                                    using (Image img = Image.FromFile(@"c:\temp\" + guid + ".jpg"))
                                    {
                                        int minHeight = this.cov_min_height;
                                        if ((bool)((object[])options)[1])
                                            minHeight = 100;

                                        if (img.RawFormat.Equals(System.Drawing.Imaging.ImageFormat.Jpeg) && img.HorizontalResolution > 70 && img.Size.Height > minHeight && img.Size.Width > this.cov_min_width && this.image_size < 250000)
                                        {
                                            foundgg = true;
                                            image_name = guid;
                                            image_height = img.Height;
                                            image_width = img.Width;
                                            img.Dispose();
                                            if ((bool)((object[])options)[0])
                                            {
                                                Mediatly.savePoster(this, (bool)((object[])options)[1]);
                                            }
                                        }
                                        else
                                        {
                                            img.Dispose();
                                            File.Delete(@"c:\temp\" + guid.ToString() + ".jpg"); 
                                        }
                                    }
                                }
                                catch (Exception ex)
                                {
                                }
                            }

                            j++;
                        }
                    }
                }

                webClient.Dispose();
                Log.CountImgDec();
            }
        }
    }

    public void getPosterAsc(bool save = false, bool banner = false)
    {
        ThreadPool.QueueUserWorkItem(new WaitCallback(getPoster), new object[2] { save, banner });
    }
4

4 回答 4

3

我会确保您使用线程池来“管理”您的线程。正如有人所说,每个线程消耗大约 1MB 的内存,并且取决于系统硬件,这可能会导致您的问题。

解决此问题的一种可能方法是使用线程池。这减少了通过在可能的情况下共享和回收线程来生成所有线程所产生的开销。这允许低级线程设施(有许多线程处于活动状态),但限制了这样做的性能损失。

线程池还限制了它将同时运行的工作线程的数量(注意,这些都是后台线程)。过多的操作线程是一个很大的管理开销,并且会“使 CPU 缓存失效”。一旦达到您将施加的线程池限制,额外的作业将排队并在另一个工作线程空闲时执行。我觉得这是一种更有效、更安全、更节省资源的方式来满足您的需求。

根据您当前的代码,有多种进入线程池的方法:

  1. BackgroundWorker.
  2. ThreadPool.QueueUserWorkItem.
  3. 异步代表。
  4. 普林克。

我个人会使用 TPL,因为它很棒!我希望这有帮助。

于 2012-05-23T10:05:33.103 回答
1

使用 perfmon 检查内存的实际使用情况,特别要密切注意“Modified Page List Bytes”的值。这在多线程应用程序中可能特别麻烦,因为对文件的引用被保留了一段特定的时间 - 高利用此值的通常(临时)解决方案是增加可用的虚拟内存。

此外,如果在 Windows Server 2008 上运行高度线程化的应用程序,您将需要应用Microsoft的 dynacache以防止系统文件缓存有效地占用您的可用内存。

上述两个问题都可以直接与处理大量数据的 .net 多线程应用程序相关,不幸的是它们没有显示为您的应用程序正在使用,因此很难追踪(正如我发现的那样痛苦的几天的过程)

于 2012-05-23T12:54:10.807 回答
0

我最近在我的一个应用程序中遇到了一个与此非常相似的问题。它与在单个“字符串”对象中存储和使用的数据量有关。如果我不得不猜测,您的内存不足异常来自初始分配

ddlValue = webClientProxy.DownloadString((string)((object[])obj)[1]);

如果您可以重新编写它,您能否找到一种方法以流的形式访问 Web 返回,而不是将整个响应读入字符串。然后,您可以使用流阅读器逐行解析 Web 响应。

是的,我知道这听起来很复杂,但它与我最终不得不在自己的代码中使用的解决方案相匹配。我正在处理一些太大而无法存储为单个字符串的东西,而不得不直接从流中访问它们。

于 2012-05-23T13:02:10.127 回答
0

当您使用 32 位可执行文件时,您实际上只能默认分配 2Gb 而不是 8Gb(有关更多信息,请参见此处:http: //blogs.msdn.com/b/tom/archive/2008/04/10/chat-question- 32 位和 64 位进程的内存限制.aspx )

尝试限制你的工作线程,这样你就不会使用那么多,并确保你在执行代码的线程上没有内存泄漏。

用 try...catch 包装你的线程执行(如果你在线程执行代码上得到 OutOfMemoryException),因为它可能与你下载的图像有关

于 2012-05-23T08:58:18.807 回答