我正在尝试抓取一堆本地 html 文件。每个文件中都嵌入了一段 javascript,具有不同的 window.open 路径,如下所示:
<script>
function goTo() {
if (document.getElementById('somedomain').checked) {
window.open("http://www.somedomain.com");
}
if (document.getElementById('visit').checked) {
window.open("http://extract-this-url.com/?somevar=12345&anothervar=59305&etc=etc");
}
}
</script>
我正在尝试提取第二个 URL - 每个文件的 URL 将是不同的(与第一个“somedomain”URL 一样)。
我一直在看SimpleHTMLDOM,但它看起来不像它可以做嵌入在 HTML 文件中的 javascript。
有什么体面的方法可以做到这一点吗?