1

我必须每隔 x 秒同时与多台机器建立 tcp 套接字连接,以获得类似状态更新数据包的东西。

我使用了一个 Callable 线程类,它创建一个连接到每台机器的未来任务,发送一个查询数据包,并接收一个回复,该回复将返回给创建所有可调用对象的主线程。

我的套接字连接类是:

public class ClientConnect implements Callable<String> {
    Connection con = null;
    Statement st = null;
    ResultSet rs = null;
    String hostipp, hostnamee; 
    ClientConnect(String hostname, String hostip) {
        hostnamee=hostname;
        hostipp = hostip;
    }
    @Override
    public String call() throws Exception {
        return GetData();
    }
    private String GetData()  {
            Socket so = new Socket();
            SocketAddress sa =  null;
            PrintWriter out = null;
            BufferedReader in = null;
        try {
            sa = new InetSocketAddress(InetAddress.getByName(hostipp), 2223);
        } catch (UnknownHostException e1) {
            e1.printStackTrace();
        }
        try {
            so.connect(sa, 10000);

            out = new PrintWriter(so.getOutputStream(), true);
            out.println("\1IDC_UPDATE\1");
            in = new BufferedReader(new InputStreamReader(so.getInputStream()));
            String [] response = in.readLine().split("\1");             
            out.close();in.close();so.close(); so = null;

            try{
                Integer.parseInt(response[2]);
            } catch(NumberFormatException e) {
                System.out.println("Number format exception");
                return hostnamee + "|-1" ;
            }

            return hostnamee + "|" + response[2];
        } catch (IOException e) {
            try {
                if(out!=null)out.close();
                if(in!=null)in.close();
                so.close();so = null;
                return hostnamee + "|-1" ;
            } catch (IOException e1) {
                // TODO Auto-generated catch block
                return hostnamee + "|-1" ;
            }
        }
    }
}

这就是我在主类中创建线程池的方式:

private void StartThreadPool()
{
    ExecutorService pool = Executors.newFixedThreadPool(30);
    List<Future<String>> list = new ArrayList<Future<String>>();
    for (Map.Entry<String, String> entry : pc_nameip.entrySet()) 
    {
        Callable<String> worker = new ClientConnect(entry.getKey(),entry.getValue());
        Future<String> submit = pool.submit(worker);
        list.add(submit);
    }
    for (Future<String> future : list) {
        try {
            String threadresult;
            threadresult = future.get();
            //........ PROCESS DATA HERE!..........//
        } catch (InterruptedException e) {
            e.printStackTrace();
        } catch (ExecutionException e) {
            e.printStackTrace();
        }
    }       
}

pc_nameip 映射包含 (hostname, hostip) 值,并且我为每个条目创建一个 ClientConnect 线程对象。

我的问题是,当我的机器列表包含 10 台计算机(其中大多数都没有存活)时,即使我的超时限制设置为 10 秒,我也会收到很多超时异常(在存活的计算机中)。

如果我强制列表包含单个工作电脑,我没有问题。超时非常随机,不知道是什么原因造成的。

所有机器都在本地网络中,远程服务器也是由我(用 C/C++)编写的,并且在另一个设置中工作了 2 年多,没有任何问题。

我错过了什么还是可能是操作系统网络限制问题?我正在 windows xp sp3 上测试此代码。提前致谢!



更新:

在创建两台新的服务器机器并保留一台超时很多的服务器后,我得到以下结果:

For 100 thread runs over 20 minutes :

NEW_SERVER1 : 99 successful connections/ 1 timeouts
NEW_SERVER2 : 94 successful connections/ 6 timeouts
OLD_SERVER  : 57 successful connections/ 43 timeouts

其他信息: - 我经历了一次 JRE 崩溃(EXCEPTION_ACCESS_VIOLATION (0xc0000005)),不得不重新启动应用程序。- 我注意到,当应用程序运行时,我的网络连接在我浏览互联网时遇到了困难。我不知道这是否是预期的,但我认为我在 MAX 15 线程上的数量并不多。

所以,我所有的旧服务器中的第一个都有某种问题。不知道那是什么,因为我的新服务器是从同一个操作系统映像创建的。

其次,虽然超时百分比已经大幅下降,但我仍然认为在像我们这样的小型 LAN 中即使出现一次超时也是不常见的。但这可能是服务器的应用程序部分问题。

最后我的观点是,除了旧服务器的问题(我仍然无法相信我为此浪费了这么多时间!),肯定有服务器应用程序错误或与 JDK 相关的错误(因为我经历了 JRE 崩溃)。

ps 我使用 Eclipse 作为 IDE,我的 JRE 是最新的。

如果以上任何一项对您敲响了警钟,请发表评论。谢谢你。

- - -编辑 - - -

难道是 PrintWriter 和/或 BufferedReader 实际上不是线程安全的??????!!!

----新编辑 2013 年 9 月 9 日----

在重新阅读所有评论并感谢@Gray 和他的评论后:

当您运行多台服务器时,前几台是否正常工作,其余的是否超时?在你的 fork 循环中放一个小睡眠(比如 10 或 100 毫秒)以查看它是否以这种方式工作可能会很有趣。

我重新排列了主机/IP 的树列表,得到了一些非常奇怪的结果。看起来,如果一个活着的主机被放在树列表的顶部,从而首先启动一个套接字连接,那么在没有任何延迟或超时的情况下连接和接收数据包是没有问题的。

相反,如果一个活着的主机被放置在列表的底部,并且在它之前有几个死主机,那么连接的时间太长了,而我之前的超时时间为 10 秒,它无法连接。但是在将超时更改为 60 秒后(感谢@EJP),我意识到没有发生超时!

连接时间太长(在某些情况下超过 20 秒)。有些东西阻塞了新的套接字连接,并不是主机或网络忙于响应。

我这里有一些调试数据,如果你想看看: http: //pastebin.com/2m8jDwKL

4

3 回答 3

1

您可以在连接到套接字之前简单地检查可用性。有一个答案提供了某种骇人听闻的解决方法https://stackoverflow.com/a/10145643/1809463

Process p1 = java.lang.Runtime.getRuntime().exec("ping -c 1 " + ip);
int returnVal = p1.waitFor();
boolean reachable = (returnVal==0);

通过jayunit100

它应该可以在 unix 和 windows 上运行,因为 ping 是一个通用程序。

于 2013-09-04T13:41:41.537 回答
0

我的问题是,当我的机器列表包含 10 台计算机(其中大多数都没有存活)时,即使我的超时限制设置为 10 秒,我也会收到很多超时异常(在存活的计算机中)。

因此,据我了解,如果您的地图中有(例如)10 台 PC,其中 1 台处于活动状态,而其他 9 台未在线,则所有 10 个连接都会超时。如果您只是将 1 台活着的 PC 放在地图中,它会显示得很好。

这指向某种并发问题,但我看不到它。我会认为有某种共享数据没有被锁定或其他东西。我看到您的测试代码正在使用Statementand ResultSet。也许有一个数据库连接正在共享而没有锁定或其他什么?您可以尝试只返回结果字符串并将其打印出来吗?

不太可能是某种网络或防火墙配置,但是一个失败的连接会导致另一个失败的想法很奇怪。也许尝试在其中一台服务器或另一台计算机上运行您的程序?

如果我尝试您的测试代码,它似乎工作正常。这是我的测试类的源代码。联系在线和离线主机的组合没有问题。

最后一些关于您的代码的快速评论:

  • finally您应该在一个块中关闭流、读取器和套接字。检查我的测试类以获得更好的模式。
  • 您应该返回一个Result小类,而不是传回一个String必须解析的类。

希望这可以帮助。

于 2013-09-05T12:58:33.887 回答
0

经过大量阅读和实验后,我将不得不回答我自己的问题(当然,如果我被允许这样做的话)。

Java 只是不能处理并发的多个套接字连接而不增加很大的性能开销。至少在 Core2Duo/4GB RAM/Windows XP 机器上。

创建到远程主机的多个并发套接字连接(当然使用我发布的代码)会产生某种资源瓶颈或阻塞情况,我仍然不知道。

如果您尝试同时连接到 20 台主机,并且其中很多主机断开连接,那么您无法保证与活动主机的“快速”连接。您将获得连接,但可能会在 20-25 秒后连接。这意味着您必须将套接字超时设置为 60 秒。(我的申请不接受)

如果一个活着的主机幸运地首先开始它的连接尝试(记住并发不是绝对的。for循环仍然具有顺序性),那么他可能会很快连接并得到响应。

如果运气不好,socket.connect() 方法会阻塞一段时间,这取决于它之前有多少主机最终会超时。

在 pool.submit(worker) 方法调用(100 ms)之间添加一个小睡眠后,我意识到它会有所不同。我可以更快地连接到“不幸”的主机。但是如果增加死亡主机列表,结果几乎是一样的。

如果我编辑我的主机列表并将以前“不幸”的主机放在顶部(在死主机之前),所有问题都会消失......

因此,由于某种原因,socket.connect() 方法会在要连接的主机很多且不活跃时产生一种瓶颈形式。无论是 JVM 问题、操作系统限制还是我的错误编码,我都不知道...

我会尝试不同的编码方法,希望明天我会发布一些反馈。

ps 这个答案让我想到了我的问题: https ://stackoverflow.com/a/4351360/2025271

于 2013-09-09T15:04:12.537 回答