0

我正在尝试抓取一堆本地 html 文件。每个文件中都嵌入了一段 javascript,具有不同的 window.open 路径,如下所示:

<script>

function goTo() {

if (document.getElementById('somedomain').checked) {
window.open("http://www.somedomain.com");
}

if (document.getElementById('visit').checked) {
window.open("http://extract-this-url.com/?somevar=12345&anothervar=59305&etc=etc");
}

}
</script>

我正在尝试提取第二个 URL - 每个文件的 URL 将是不同的(与第一个“somedomain”URL 一样)。

我一直在看SimpleHTMLDOM,但它看起来不像它可以做嵌入在 HTML 文件中的 javascript。

有什么体面的方法可以做到这一点吗?

4

1 回答 1

1

只需使用正则表达式:

preg_match('#visit.*?window\.open\("(.*?)"#is',$text,$matches);
print_r($matches);
于 2013-01-04T11:00:07.590 回答