java - Java socket 无限读阻塞

Question

在使用 Java 套接字时，我遇到了一个非常奇怪的问题。这个问题只发生在我正在处理的 URL 的一个非常小的子集上。让我们调用一个示例 url abc.com。

编辑： urllists.wikimedia.org/robots.txt给我带来了问题。

我可以完美地lists.wikimedia.org使用路径curl/netcat/telnet 。/robots.txtTelnet 甚至告诉我 IP 地址lists.wikimedia.org（见下文）。但是，当我尝试使用 Java 套接字执行相同操作时，如下所示：

Socket s = new Socket("208.80.154.4", 80);  // IP is same as the IP printed by telnet
BufferedWriter writer = new BufferedWriter(s.getOutputStream());
writer.println("HEAD /robots.txt HTTP/1.1");
writer.println("Host: lists.wikimedia.org");
writer.println("Connection: Keep-Alive");
writer.flush();

InputStreamReader r = new InputStreamReader(s.getInputStream());
BufferedReader reader = new BufferedReader(r);

String line;
while ((line = reader.readLine()) != null) {
    ...
}

readLine 无限阻塞，直到套接字超时......

有谁知道为什么会发生这种情况？相同的代码适用于大多数其他 URL，有趣的是，这个错误只发生在一些 ROBOTS.TXT 请求中……我很困惑为什么会发生这种情况。

编辑：

有趣的是，使用 apache HttpClient 库给了我正确的结果lists.wikimedia.org/robots.txt。如果我想通过 Socket 手动完成，我还需要做些什么吗？

score 5 · Accepted Answer

可能您缺少用于结束 HTTP 请求标头的附加 CRLF。我也会明确地写出来，以避免平台混淆，就像这样（未经测试）：

writer.print("HEAD /robots.txt HTTP/1.1\r\n");
writer.print("Host: lists.wikimedia.org\r\n");
writer.print("Connection: Keep-Alive\r\n");
writer.print("\r\n");
writer.flush();

还可以考虑使用 HTTPURLConnection 而不是普通的套接字，消除所有这些负担：

HttpURLConnection connection = (HttpURLConnection) new URL(url).openConnection();
connection.setRequestMethod("HEAD");
...

java - Java socket 无限读阻塞

1 回答 1

Related

Reference