首先感谢这样一个伟大的社区。我从你在这里的问题和答案中学到了很多东西。这是我关于 SO 的第一个问题,所以请温柔:)
好的,但首先要做的是:
-1st 代码版本:
private async void buttonWebScrap_Click(object sender, EventArgs e)
{
ClickLink("/ptk/sun/core/cookie/CookiesHandler.accept");
await Task.Delay(750);
if (_backgroundTaskRunning || !ClickLink("msisdn-change")) return;
_backgroundTaskRunning = true;
await LongTaskAsync();
}
private async Task LongTaskAsync()
{
const string previous = "msisdn-pool-prev";
const string next = "msisdn-pool-next";
var tempNumbers = new List<object>();
while (true)
{
await Task.Delay(750);
var document = webBrowser.DocumentText;
var htmlDoc = new HtmlAgilityPack.HtmlDocument();
htmlDoc.LoadHtml(document);
var numbers = htmlDoc.DocumentNode.SelectNodes("//a[starts-with(@id, 'msisdn')]");
tempNumbers.AddRange(from number in numbers
where number.Id != previous && number.Id != next
select number.InnerText.RemoveEnters().RemoveSpaces().ReplaceSpecificChars());
tempNumbers.Add("-------------------------");
if (tempNumbers.Count >= 24)
{
listBoxNumbers.Items.AddRange(tempNumbers.ToArray());
tempNumbers.Clear();
}
if (ClickLink(next) == false)
{
break;
}
}
}
private bool ClickLink(string linkId)
{
if (webBrowser.Document != null)
{
var elementById = webBrowser.Document.GetElementById(linkId);
if (elementById != null)
{
elementById.InvokeMember("click");
}
else
{
return false;
}
if (webBrowser.Document.Window != null)
{
webBrowser.Document.Window.ScrollTo(0, 480);
}
}
else
{
return false;
}
return true;
}
-第二个代码版本:
private void MainForm_Load(object sender, EventArgs e)
{
_webBrowserDocuments = new ConcurrentQueue<string>();
_uiScheduler = TaskScheduler.FromCurrentSynchronizationContext();
_progress = new Progress<string>();
_progress.ProgressChanged += (o, s) => _objects.Add(s);
_objects = new BindingList<string>();
listBoxNumbers.DataSource = _objects;
}
private void MainForm_FormClosing(object sender, FormClosingEventArgs e)
{
WebBrowserEmulation.Delete();
}
private async void buttonWebScrap_Click(object sender, EventArgs e)
{
await WebBrowserClickLinkAsync("/ptk/sun/core/cookie/CookiesHandler.accept");
if (_backgroundTaskRunning || !(await WebBrowserClickLinkAsync("msisdn-change"))) return;
await Task.Delay(5000);
var cts = new CancellationTokenSource();
await WebBrowserDocumentDownloadAsync(cts);
await DocumentParseAsync(_progress, cts);
_backgroundTaskRunning = true;
}
private async Task DocumentParseAsync(IProgress<string> progress, CancellationTokenSource cts)
{
await Task.Factory.StartNew(() =>
{
while (true)
{
string tempDocument;
if (_webBrowserDocuments.TryDequeue(out tempDocument))
{
var htmlDoc = new HtmlAgilityPack.HtmlDocument();
htmlDoc.LoadHtml(tempDocument);
var numbers = htmlDoc.DocumentNode.SelectNodes("//a[starts-with(@id, 'msisdn')]");
foreach (var number in numbers.Where(number => number.Id != Previous && number.Id != Next).
Select(x => x.InnerText.RemoveEnters().RemoveSpaces().ReplaceSpecificChars()))
{
progress.Report(number);
}
progress.Report("-------------------------");
}
if (cts.IsCancellationRequested)
{
break;
}
}
}, cts.Token);
}
private async Task WebBrowserDocumentDownloadAsync(CancellationTokenSource cts)
{
await Task.Factory.StartNew(async () =>
{
while (true)
{
await Task.Delay(1000);
_webBrowserDocuments.Enqueue(webBrowser.DocumentText);
if (await WebBrowserClickLinkAsync(Next)) continue;
cts.Cancel();
break;
}
}, new CancellationToken(), TaskCreationOptions.None, _uiScheduler);
}
private async Task<bool> WebBrowserClickLinkAsync(string linkId)
{
return await Task.Factory.StartNew(() =>
{
if (webBrowser.Document != null)
{
var elementById = webBrowser.Document.GetElementById(linkId);
if (elementById != null)
{
elementById.InvokeMember("click");
}
else
{
return false;
}
if (webBrowser.Document.Window != null)
{
webBrowser.Document.Window.ScrollTo(0, 480);
}
}
else
{
return false;
}
return true;
}, new CancellationToken(), TaskCreationOptions.None, _uiScheduler);
}
一开始一切都很好,但是在抓取了大约 500 个数字之后,“GUI”有点迟钝。我不知道是因为我对异步/等待模式的“糟糕”理解,还是其他原因。我认为第二个版本会更好地完成这项任务 - 但它仍然很慢:/。有人可以帮我弄这个吗?
为什么我使用 webbrowser 控件而不是 webclient?我知道这会容易得多,但是我从中进行网页抓取的网站是用(如我所见)Java(jsessionId)+ ajax 制作的,并且没有“正确”的链接。
如果您需要更多详细信息,请写 ;)
提前致谢。
编辑:
第二个版本使用返回任务(或任务)的方法来简化等待来自 MainForm 的当前 SynchronizationContext (只有其中两个)
第一个版本是使用 await/async 的第一种方法(您可以看到 LongTaskAsync() 方法与 await Task.Delay() 异步)
这是一个完成的代码(没有一些想法,比如获取 SynchronizationContext、将 ListBox.DataSource 设置为 BindList 等),winform 上只有 3 个控件 - 网络浏览器、列表框和按钮;)