0

我有一个 url (http://www2.anac.gov.br/aeronaves/cons_rab.asp) 我需要以编程方式发布表单数据。也就是说,以编程方式,我想选择正确的单选按钮并单击提交按钮。如果你去上面的网址,我需要选择的单选按钮是“modelo”。单击“确定”按钮将返回一个包含 20k+ 链接的表单。

然后我想遍历所有 20k+ 链接并抓取链接指向的页面。最后,我将从最后一页获取信息并将数据放入 Excel 电子表格中。

进入第三页以抓取信息的最佳方式是什么?我研究了 HTML Agility Pack、HTTPWebRequest 和 WebBrowser 控件,但我不确定该使用哪一个。

更新:在第一页上,我必须选择一个单选按钮,然后模拟一个按钮单击,将表单发布回自身。结果页面包含我感兴趣的 20K+ 链接;但是,每个链接都是一个 javascript 函数调用。JS 函数获取链接文本,将其放在文本框中,然后单击提交按钮。我怎么能自动化呢?

4

2 回答 2

1

您应该能够使用 HTML Agility 包做您想做的事情:

您还应该考虑 iRobot:

还:

1)你试过什么?

2)你走了多远?你遇到了什么问题/疑问?

于 2012-08-10T20:37:19.807 回答
1

你试过吗?它使用 webdriver,我已经使用它完成了几个屏幕抓取应用程序,并且从未遇到过问题,即使使用实时应用程序也是如此。您可以将它与 C# 一起使用来驱动浏览器并获取您需要的内容。

于 2012-08-15T15:14:58.983 回答