3

我想用 ajax 或 jquery 阅读 www.google.com 的 html 源代码(我不只是想显示源代码,我需要解析它,所以有 xmlhttp.responseText 很好)。

读取外部网页的内容并获取特定元素有一个很好的方式在服务器端使用 php Javascript 可以读取任何网页的源代码吗?如果您尝试阅读本地域的页面,那就太好了

yql+JSON 是一种可能,如上所述,但看起来很慢而且开销很大

我更喜欢ajax,因为我不需要加载90k jquery lib,据我所知......

var xmlhttp=null;
var url = 'bot.html?url=http://google.com';  //must redirect in bot.html
//var url='http://www.google.com';  wont work, 0 xmlhttp.status error
if (window.XMLHttpRequest) { // code for IE7+, Firefox, Chrome, Opera, Safari
  xmlhttp=new XMLHttpRequest();  //src says buggy for IE7
} else {// code for IE6, IE5
  xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
}

xmlhttp.open("GET",url,true);
xmlhttp.send(null);

xmlhttp.onreadystatechange=function() {
 if (xmlhttp.readyState==4 && xmlhttp.status==200) {
    document.getElementById("result").innerHTML= xmlhttp.responseText;
 }
}

和jquery差不多...

$("#result").load(url);

其他提到的stackoverflow中未提及的是如何处理 ?url= 。我做了(保留所有js)......

bot.html:
<head>
<script type="text/javascript">
var vars = query.split("&"); 
var pair = vars[0].split("=");
if (pair[0]=='url') {  // ex bot.html?url=http://www.google.com
    alert('hi '+pair[1]);
    window.location = pair[1];
    //top.location.href=pair[1];  or
}
</script>
... above jquery or ajax ...
<div id="result">Fill Me</div>

所有这一切都适用于本地页面 var url='index.php' (没有重定向),但是,这些都不适用于外部链接,如 google.com,我似乎无法 var url='google.com'如果我尝试代理(如 jquery 所逃避的那样,没有示例,在上面提到的 stackoverflow 中)它会加载 bot.html (本身)的源(从不执行警报或重定向),我认为这是有道理的,因为它是加载,不做。我想我可以对 ajax 使用相同的代理技巧。

尝试通过 .htaccess 重定向/代理不适合此应用程序

4

1 回答 1

0

我看不到您要使用问题中的第二段代码(从bot.html下往上)来完成什么。

但!我想我有一个解决方案给你。您可能遇到了同源策略(维基百科MDN文档),该策略基本上指出 XMLHttpObjects 不能向最初提供服务的域以外的域发出请求。这背后的想法是,如果在浏览器级别(换句话说,在比 JS 运行时本身更高的权限)没有这样的强制执行,外部脚本很容易通过更改提出此类请求的域或参数。

解决方法是改用脚本标签。这是我从jQuery 源代码中改编的一些代码(搜索“DOMContentLoaded”以获得相关部分)来做到这一点。我也不想包含整个 jQuery 库来发出跨域 Ajax 请求 - 我们正在测试客户端操作的速度,并且一些测试目标已经不需要 jQuery,因此包含它会扭曲测试.

function saveTime() {
    var s = document.createElement("script"), h = document.head || document.getElementsByTagName("head")[0] || document.documentElement;
    s.async = "async";
    s.type = "text/javascript";
    s.onreadystatechange = function(result) {
        // callback function
        // Append the result into the inner HTML here
    };
    s.src = url;
    h.insertBefore(s, h.firstChild);
}

这应该可以满足您的需求,但您可能需要调整type属性以获取原始/完整的 HTML 内容。它将<script>带有您指定的源的标签附加到标签url的开头<head>(或正文,对于非常旧的 IE 版本)。我没有调整清理代码。如果您查看 jQuery 源代码,您会发现它们实际上有额外的处理程序,用于在请求完成或失败后从 DOM 中删除标记。

于 2012-12-02T21:59:09.367 回答