我正在实现一个简单的 HTTP 客户端,它只连接到 Web 服务器并获取其默认主页。在这里,它工作得很好:
using System;
using System.Net.Sockets;
namespace ConsoleApplication1
{
class Program
{
static void Main(string[] args)
{
TcpClient tc = new TcpClient();
tc.Connect("www.google.com", 80);
using (NetworkStream ns = tc.GetStream())
{
System.IO.StreamWriter sw = new System.IO.StreamWriter(ns);
System.IO.StreamReader sr = new System.IO.StreamReader(ns);
string req = "";
req += "GET / HTTP/1.0\r\n";
req += "Host: www.google.com\r\n";
req += "\r\n";
sw.Write(req);
sw.Flush();
Console.WriteLine("[reading...]");
Console.WriteLine(sr.ReadToEnd());
}
tc.Close();
Console.WriteLine("[done!]");
Console.ReadKey();
}
}
}
当我从上面的代码中删除以下行时,程序会阻塞sr.ReadToEnd。
req += "Host: www.google.com\r\n";
我什至用sr.Read替换了sr.ReadToEnd,但它无法读取任何内容。我使用 Wireshark 来查看发生了什么:
使用 Wireshark 捕获数据包的屏幕截图 http://www.imagechicken.com/uploads/1252514718052893500.jpg
如您所见,在我的 GET 请求之后,Google 没有响应并且请求被一次又一次地重新传输。看来我们必须在 HTTP 请求中指定Host部分。奇怪的部分是我们不这样做。我使用telnet发送此请求并得到 Google 的回复。我还捕获了 telnet 发送的请求,它与我的请求完全相同。
我尝试了许多其他网站(例如 Yahoo、Microsoft),但结果都是一样的。
那么,telnet 中的延迟是否会导致 Web 服务器的行为有所不同(因为在 telnet 中,我们实际上是键入字符而不是在 1 个数据包中将它们一起发送)。
另一个奇怪的问题是,当我将HTTP/1.0更改为HTTP/1.1时,程序总是阻塞在sr.ReadToEnd行。我猜那是因为网络服务器没有关闭连接。
一种解决方案是使用Read(或ReadLine)和ns.DataAvailable来读取响应。但我不能确定我是否已阅读所有回复。如何读取响应并确保 HTTP/1.1 请求的响应中没有更多字节?
注意: 正如 W3 所说,
(我是为我的 HTTP/1.1 请求做的)。但是我还没有看到HTTP/1.0这样的东西。使用 telnet发送没有Host标头的请求也可以正常工作。
更新:
TCP 段中的推送标志已设置为 1。我也尝试过netsh winsock reset来重置我的 TCP/IP 堆栈。测试计算机上没有防火墙或防病毒软件。数据包实际上是发送的,因为安装在另一台计算机上的 Wireshark 可以捕获它。
我也尝试过其他一些要求。例如,
string req = "";
req += "GET / HTTP/1.0\r\n";
req += "s df slkjfd sdf/ s/fd \\sdf/\\\\dsfdsf \r\n";
req += "qwretyuiopasdfghjkl\r\n";
req += "Host: www.google.com\r\n";
req += "\r\n";
在所有类型的请求中,如果我省略Host:部分,Web 服务器不会响应,如果使用Host:部分,即使是无效请求(就像上面的请求一样)也会被响应(通过 400: HTTP错误的请求)。
nos说Host:在他的机器上不需要零件,这使情况更加奇怪。