0

当 Facebook 调试器抓取http://www.daisyworld.co.za时,它显示“无法下载:无法从 URL 检索数据。” 当我点击“查看我们的抓取工具为您的 URL 看到的确切内容”时,我得到的是:

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html>
<head><meta http-equiv="content-type" content="text/html; charset=utf-8"></head>
<body><p>ÿþ</p></body>
</html>

但实际上存在的是:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
"http://www.w3.org/TR/html4/strict.dtd">  
<html>
<head>

<META HTTP-EQUIV="content-language" CONTENT="En">
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<META HTTP-EQUIV="Content-Style-Type" CONTENT="text/css">

域中我实现了类似按钮的其他页面都没有任何问题,它工作得很好,我基本上使用了相同的 fb 代码,对于所有这些页面,每个页面都有不同的细节。我无法弄清楚问题是什么,除了调试器似乎正在查看缓存文件但肯定不应该发生这种情况吗?

4

2 回答 2

0

玛丽亚-海伦娜

我也遇到了这个问题,发现 facebook 的爬虫显示为入站 JSON 请求。由于该特定路由设置为同时处理 JSON 和 HTML 响应,因此 FB 得到了一个大而粗糙的 JSON blob,而不是实际的网页。不确定这是否能解决您的确切问题,但希望能激发一些新的想法!

于 2013-08-02T22:18:00.797 回答
0

尝试使用不同的编码保存文件 - 从 unicode 到 UTF-8 为我做到了。

于 2017-03-15T22:45:58.157 回答