0

当我通过 Firefox 13访问这个网站时,我得到了一个包含一些内容的页面。但是当我使用 wget 下载它时:

wget http://tinhvan.com

我在下载的 HTML 页面上获得了其他内容。尝试设置用户代理:

wget -U 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:13.0) Gecko/20100101 Firefox/13.0.1' http://tinhvan.com

但得到了相同的结果。

发生了什么 ?以及如何获得与通过 Firefox 访问时相同的结果?

更新

这是来自 Firefox => 查看源代码:

<!DOCTYPE html>

<html dir="ltr" lang="vi">  

    <head id="ctl00_page_header">




            <title>

                Tinhvan Group - Trang chủ       

并从 wget 下载

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /><link href="Content/images/main.css" rel="stylesheet" type="text/css" /><link href="Content/images/mail-detail.css" rel="stylesheet" type="text/css" />
    <script src="../../Content/JqueryUI/js/jquery-1.3.2.min.js" type="text/javascript"></script>    
    <title>

    Trang chủ - Tinhvan Group Website
4

1 回答 1

1

Firefox(不仅仅是 FF、Chrome、IE 等也可以)自动添加 Accept* 标头。

例如

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding: gzip, deflate
Accept-Language: en-US, en;q=0.5

尝试

wget --header="Accept: text/html"  -U 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:13.0) Gecko/20100101 Firefox/13.0.1' http://tinhvan.com

注意:如果您不声明 Accept 标头,则 wget 会自动添加 Accept:*/* 这意味着给我您拥有的任何东西。该站点似乎默认返回 aplication/xhtml+xml,但您期望的是 text/html。

于 2013-06-30T11:51:36.023 回答