0

例如,我正在尝试获取网页中 HTML 标记的一些属性

<html>
<head>
    <title>test page</title>
</head>
<body>
    <div id="header" class="clearit" role="banner">
            <div id="headerWrapper">
                <ul id="primaryNav" role="navigation">
                    <li id="musicNav" class="navItem">
                        <a href="/music" class="nav-link">Music</a>
                    </li>
                    <li id="listenNav" class="navItem">
                        <a href="/listen" class="nav-link">Radio</a>
                    </li>
                    <li id="eventsNav" class="navItem">
                        <a href="/events" class="nav-link">Events</a>
                    </li>
                    <li id="chartsNav" class="navItem">
                        <a href="/charts" class="nav-link">Charts</a>
                    </li>
                    <li id="communityNav" class="navItem">
                        <a href="/community" class="nav-link">Community</a>
                    </li>
                    <li id="originalsNav" class="navItem">
                        <a href="http://originals.last.fm" class="nav-link">Originals</a>
                    </li>
                </ul>
          </div>
    </div>
</body>
</html>

例如,我需要 #headerWrapper 的实际高度和宽度,并将其与我的 PHP 程序中的 #musicNav 进行比较,因为 php 是服务器端,所以我无法获取这些属性,所以我正在考虑附加 javascript 代码来计算这些属性并存储它在 json 文件中,就像这段代码

<script type="text/javascript">
document.ready(function() {
              var JSONObject= {
                                 "tagname":"headerWrapper",
                                 "height":$("#headerWrapper").height(),
                                 "width":$("#headerWrapper").width()
                              },
                              {
                                 "tagname":"musicNav",
                                 "height":$("#musicNav").height(),
                                 "width":$("#musicNav").width()
                              }
        });
    });  

</script>

然后通过 php 文件读取它,其中包含我的算法,从网页中提取视觉特征。

但我的问题是我需要使用一些浏览器或 PHP 或 java 中的渲染引擎来渲染带有附加 javascript 的网页……所以有人有类似的东西吗?我的方法是正确的还是有更好的解决方案?

4

2 回答 2

1

如果你想渲染一个给定 url 的网页,并且需要一个 api 来遍历渲染的 dom Phantomjs,它的api示例将帮助你。查看open render

PhantomJS 是一个带有 JavaScript API 的无头 WebKit。它具有对各种 Web 标准的快速和原生支持:DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。

于 2012-06-28T14:42:47.510 回答
0

如果我理解正确,您需要一种从 Java 应用程序控制浏览器的方法。 似乎是相关的。你可能还想考虑的事情——

  1. 让应用了解您的浏览器(二进制或其他)。
  2. 从主机上的多个可用浏览器中进行选择。
  3. 考虑跨平台支持。
于 2012-06-28T14:29:48.080 回答