1

我有一种情况,我必须从网页收集信息。我需要提取 HTML 表的任何封装的 td 标签

在这种特殊情况下,我唯一可用于执行此过程的是 PowerShell。

有没有一种简单的方法可以只使用 PowerShell 来做到这一点?

4

2 回答 2

2

我认为您必须选择主要选项:

  1. 使用正则表达式。
  2. 使用 DOM。

以下是您可以同时执行这两项操作的方法:

正则表达式:

$data = (new-object System.Net.WebClient).DownloadString('http://www.amazon.com')
[regex]::Matches($data, '<td.*?>(.+)</td>') | % {$_.Captures[0].Groups[1].value}

DOM:

$ie = new-object -com InternetExplorer.Application
$ie.Navigate('http://www.amazon.com')
$ie.Document.getElementsByTagName('td')
于 2012-04-27T21:53:42.863 回答
0
$ie = new-object -com "InternetExplorer.Application"
$ie.navigate("<app url>")
$doc = $ie.Document
$doc.getElementByID("<some id>")

您可以在此处阅读更多信息 - http://msdn.microsoft.com/en-us/magazine/cc337896.aspx

希望这可以帮助。

于 2012-04-27T20:37:22.763 回答