1

首先感谢这样一个伟大的社区。我从你在这里的问题和答案中学到了很多东西。这是我关于 SO 的第一个问题,所以请温柔:)

好的,但首先要做的是:

-1st 代码版本:

private async void buttonWebScrap_Click(object sender, EventArgs e)
{
    ClickLink("/ptk/sun/core/cookie/CookiesHandler.accept");

    await Task.Delay(750);

    if (_backgroundTaskRunning || !ClickLink("msisdn-change")) return;

    _backgroundTaskRunning = true;
    await LongTaskAsync();
}

private async Task LongTaskAsync()
{
    const string previous = "msisdn-pool-prev";
    const string next = "msisdn-pool-next";

    var tempNumbers = new List<object>();
    
    while (true)
    {
        await Task.Delay(750);

        var document = webBrowser.DocumentText;
        var htmlDoc = new HtmlAgilityPack.HtmlDocument();
        htmlDoc.LoadHtml(document);

        var numbers = htmlDoc.DocumentNode.SelectNodes("//a[starts-with(@id, 'msisdn')]");

        tempNumbers.AddRange(from number in numbers
                             where number.Id != previous && number.Id != next
                             select number.InnerText.RemoveEnters().RemoveSpaces().ReplaceSpecificChars());
        tempNumbers.Add("-------------------------");

        if (tempNumbers.Count >= 24)
        {
            listBoxNumbers.Items.AddRange(tempNumbers.ToArray());
            tempNumbers.Clear();
        }
        
        if (ClickLink(next) == false)
        {
            break;
        }
    }
} 

private bool ClickLink(string linkId)
{
    if (webBrowser.Document != null)
    {
        var elementById = webBrowser.Document.GetElementById(linkId);

        if (elementById != null)
        {
            elementById.InvokeMember("click");
        }
        else
        {
            return false;
        }

        if (webBrowser.Document.Window != null)
        {
            webBrowser.Document.Window.ScrollTo(0, 480);
        }
    }
    else
    {
        return false;
    }

    return true;
}

-第二个代码版本:

private void MainForm_Load(object sender, EventArgs e)
    {
    _webBrowserDocuments = new ConcurrentQueue<string>();
    _uiScheduler = TaskScheduler.FromCurrentSynchronizationContext();

    _progress = new Progress<string>();
    _progress.ProgressChanged += (o, s) => _objects.Add(s);

    _objects = new BindingList<string>();
    listBoxNumbers.DataSource = _objects;
}

private void MainForm_FormClosing(object sender, FormClosingEventArgs e)
{
    WebBrowserEmulation.Delete();
}

private async void buttonWebScrap_Click(object sender, EventArgs e)
{
    await WebBrowserClickLinkAsync("/ptk/sun/core/cookie/CookiesHandler.accept");

    if (_backgroundTaskRunning || !(await WebBrowserClickLinkAsync("msisdn-change"))) return;

    await Task.Delay(5000);
    var cts = new CancellationTokenSource();

    await WebBrowserDocumentDownloadAsync(cts);
    await DocumentParseAsync(_progress, cts);

    _backgroundTaskRunning = true;
}

private async Task DocumentParseAsync(IProgress<string> progress, CancellationTokenSource cts)
{
    await Task.Factory.StartNew(() =>
        {
            while (true)
            {
                string tempDocument;
                if (_webBrowserDocuments.TryDequeue(out tempDocument))
                {
                    var htmlDoc = new HtmlAgilityPack.HtmlDocument();
                    htmlDoc.LoadHtml(tempDocument);

                    var numbers = htmlDoc.DocumentNode.SelectNodes("//a[starts-with(@id, 'msisdn')]");

                    foreach (var number in numbers.Where(number => number.Id != Previous && number.Id != Next).
                                                   Select(x => x.InnerText.RemoveEnters().RemoveSpaces().ReplaceSpecificChars()))
                    {
                        progress.Report(number);
                    }

                    progress.Report("-------------------------");
                }

                if (cts.IsCancellationRequested)
                {
                    break;
                }
            }
        }, cts.Token);
}

private async Task WebBrowserDocumentDownloadAsync(CancellationTokenSource cts)
{
    await Task.Factory.StartNew(async () =>
        {
            while (true)
            {
                await Task.Delay(1000);

                _webBrowserDocuments.Enqueue(webBrowser.DocumentText);

                if (await WebBrowserClickLinkAsync(Next)) continue;
                cts.Cancel();
                break;
            }
        }, new CancellationToken(), TaskCreationOptions.None, _uiScheduler);
}

private async Task<bool> WebBrowserClickLinkAsync(string linkId)
{
    return await Task.Factory.StartNew(() =>
        {
            if (webBrowser.Document != null)
            {
                var elementById = webBrowser.Document.GetElementById(linkId);

                if (elementById != null)
                {
                    elementById.InvokeMember("click");
                }
                else
                {
                    return false;
                }

                if (webBrowser.Document.Window != null)
                {
                    webBrowser.Document.Window.ScrollTo(0, 480);
                }
            }
            else
            {
                return false;
            }

            return true;
        }, new CancellationToken(), TaskCreationOptions.None, _uiScheduler);
}

一开始一切都很好,但是在抓取了大约 500 个数字之后,“GUI”有点迟钝。我不知道是因为我对异步/等待模式的“糟糕”理解,还是其他原因。我认为第二个版本会更好地完成这项任务 - 但它仍然很慢:/。有人可以帮我弄这个吗?

为什么我使用 webbrowser 控件而不是 webclient?我知道这会容易得多,但是我从中进行网页抓取的网站是用(如我所见)Java(jsessionId)+ ajax 制作的,并且没有“正确”的链接。

如果您需要更多详细信息,请写 ;)

提前致谢。

编辑:

  • 第二个版本使用返回任务(或任务)的方法来简化等待来自 MainForm 的当前 SynchronizationContext (只有其中两个)

  • 第一个版本是使用 await/async 的第一种方法(您可以看到 LongTaskAsync() 方法与 await Task.Delay() 异步)

  • 这是一个完成的代码(没有一些想法,比如获取 SynchronizationContext、将 ListBox.DataSource 设置为 BindList 等),winform 上只有 3 个控件 - 网络浏览器、列表框和按钮;)

4

1 回答 1

3

减速可能是由于将您的值添加到您的用户界面。

在循环期间,您将项目添加到列表框中:

    if (tempNumbers.Count >= 24)
    {
        listBoxNumbers.Items.AddRange(tempNumbers.ToArray());
        tempNumbers.Clear();
    }

随着你得到越来越多的结果,列表框的显示实际上会成为一个瓶颈,并导致事情变慢。由于列表框必须始终在 UI 线程上更新,这将导致您的 UI 随着时间的推移变得不那么响应。

您的第二个选项可能会更糟,因为您BindingList<T>在第二个选项中一次将项目添加到一个项目,并且每次添加都会导致 UI 刷新。

这可以通过使用将VirtualMode设置为 true 的 ListView 来缓解,因为这可以防止添加新项目时强制刷新屏幕。

于 2013-05-14T17:51:43.160 回答