1

我们的系统设置由两台 Weblogic 10.3 服务器组成:一台托管表示层,另一台托管 EJB。系统在中等负载下运行良好一段时间(一到几天),之后从表示服务器到 EJB 服务器的 EJB 方法调用开始失败,并出现以下错误:

java.rmi.RemoteException: java.rmi.UnmarshalException: error unmarshalling arguments; nested exception is: java.io.OptionalDataException

堆栈跟踪:

java.io.OptionalDataException
    at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1349)
    at java.io.ObjectInputStream.readObject(ObjectInputStream.java:351)
    at weblogic.utils.io.ChunkedObjectInputStream.readObject(ChunkedObjectInputStream.java:197)
    at weblogic.rjvm.MsgAbbrevInputStream.readObject(MsgAbbrevInputStream.java:564)
    at weblogic.utils.io.ChunkedObjectInputStream.readObject(ChunkedObjectInputStream.java:193)
    at weblogic.jndi.internal.RootNamingNode_WLSkel.invoke(Unknown Source)
    at weblogic.rmi.internal.BasicServerRef.invoke(BasicServerRef.java:589)
    at weblogic.rmi.cluster.ClusterableServerRef.invoke(ClusterableServerRef.java:230)
    at weblogic.rmi.internal.BasicServerRef$1.run(BasicServerRef.java:477)
    at weblogic.security.acl.internal.AuthenticatedSubject.doAs(AuthenticatedSubject.java:363)
    at weblogic.security.service.SecurityManager.runAs(Unknown Source)
    at weblogic.rmi.internal.BasicServerRef.handleRequest(BasicServerRef.java:473)
    at weblogic.rmi.internal.wls.WLSExecuteRequest.run(WLSExecuteRequest.java:118)

一旦遇到第一个 OptionalDataException,所有后续调用都会失败并返回相同的结果。一些消息来源表明,这可能与集群多播端口配置错误有关。但是,这些服务器不属于集群。

启动 EJB 服务器总是可以暂时解决问题,但问题似乎在一段时间后再次出现。

更新:似乎问题与套接字连接数的溢出无关(请参阅下面我自己的答案)在禁止网络类加载后,我们非常稳定地运行了一周,之后我们再次开始在演示服务器上接收 OptionalDataExceptions(下面的堆栈跟踪)。很奇怪,系统正常工作了一周,然后开始出现故障。

javax.naming.CommunicationException [Root exception is java.rmi.UnmarshalException: error unmarshalling arguments; nested exception is:
    java.io.OptionalDataException]
    at weblogic.jndi.internal.ExceptionTranslator.toNamingException(ExceptionTranslator.java:74)
    at weblogic.jndi.internal.WLContextImpl.translateException(WLContextImpl.java:439)
    at weblogic.jndi.internal.WLContextImpl.lookup(WLContextImpl.java:395)
    at weblogic.jndi.internal.WLContextImpl.lookup(WLContextImpl.java:380)
    at javax.naming.InitialContext.lookup(InitialContext.java:392)
    ...
Caused by: java.rmi.UnmarshalException: error unmarshalling arguments; nested exception is:

    java.io.OptionalDataException
    at weblogic.rjvm.ResponseImpl.unmarshalReturn(ResponseImpl.java:234)
    at weblogic.rmi.cluster.ClusterableRemoteRef.invoke(ClusterableRemoteRef.java:348)
    at weblogic.rmi.cluster.ClusterableRemoteRef.invoke(ClusterableRemoteRef.java:259)
    at weblogic.jndi.internal.ServerNamingNode_1030_WLStub.lookup(Unknown Source)
    at weblogic.jndi.internal.WLContextImpl.lookup(WLContextImpl.java:392)  
    ... 38 more
Caused by: java.io.OptionalDataException
    at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1349)
    at java.io.ObjectInputStream.readObject(ObjectInputStream.java:351)
    at     
    weblogic.utils.io.ChunkedObjectInputStream.readObject(ChunkedObjectInputStream.java:197)
    at weblogic.rjvm.MsgAbbrevInputStream.readObject(MsgAbbrevInputStream.java:564)
    at     
weblogic.utils.io.ChunkedObjectInputStream.readObject(ChunkedObjectInputStream.java:193)
    at weblogic.jndi.internal.RootNamingNode_WLSkel.invoke(Unknown Source)
    at weblogic.rmi.internal.BasicServerRef.invoke(BasicServerRef.java:589)
    at weblogic.rmi.cluster.ClusterableServerRef.invoke(ClusterableServerRef.java:230)
    at weblogic.rmi.internal.BasicServerRef$1.run(BasicServerRef.java:477)
    at        
weblogic.security.acl.internal.AuthenticatedSubject.doAs(AuthenticatedSubject.java:363)
    at weblogic.security.service.SecurityManager.runAs(Unknown Source)
    at weblogic.rmi.internal.BasicServerRef.handleRequest(BasicServerRef.java:473)
    at weblogic.rmi.internal.wls.WLSExecuteRequest.run(WLSExecuteRequest.java:118)
    ... 2 more

我们以非常标准的方式获得初始上下文:

Properties p = new Properties();
p.put(Context.INITIAL_CONTEXT_FACTORY, "weblogic.jndi.WLInitialContextFactory");
p.put(Context.PROVIDER_URL, serverPath);
Context context = new InitialContext(p);

对任何获得的引用的调用也会失败,并出现类似的 OptionalDataException。单独引导演示服务器可以暂时解决问题。

4

2 回答 2

1

最后我们找到了解决方案(编辑:后来我们发现这不是问题的根本原因,而是一个单独的严重问题。有关最终解决方案,请参阅下面的答案)。一旦我们开始收到以下异常,我们就开始追踪原因:

<BEA-000403> <IOException occurred on socket: Socket[addr=/x.x.x.x,port=3266,localport=7001]
 java.net.SocketException: Connection refused.
java.net.SocketException: Connection refused
at java.net.SocketInputStream.socketRead0(Native Method)
at java.net.SocketInputStream.read(SocketInputStream.java:129)
at weblogic.socket.SocketMuxer.readReadySocketOnce(SocketMuxer.java:887)
at weblogic.socket.SocketMuxer.readReadySocket(SocketMuxer.java:859)
at weblogic.socket.DevPollSocketMuxer.processSockets(DevPollSocketMuxer.java:120)
at weblogic.socket.SocketReaderRequest.run(SocketReaderRequest.java:29)
at weblogic.socket.SocketReaderRequest.execute(SocketReaderRequest.java:42)
at weblogic.kernel.ExecuteThread.execute(ExecuteThread.java:145)
at weblogic.kernel.ExecuteThread.run(ExecuteThread.java:117)

在演示服务器上,它运行在与 EJB 服务器不同的主机上,我们可以选择

-Dweblogic.NetworkClassLoadingEnabled=true

显然启用从 EJB 服务器加载类。我们不知道的是,使用此选项会导致打开大量网络套接字。使用 netstat,我们能够发现数千个套接字处于 CLOSE_WAIT 或 FIN_WAIT_2 状态。似乎除了类之外,Web UI 中的所有元素都是从 EJB 服务器加载的,尽管演示服务器上的 war 文件包含所有这些。由于 Weblogic 在其启动脚本中删除了文件的 ulimit,因此大量的套接字不会导致“文件过多”错误消息。使用测试服务器,我们发现用户单击 Web UI 在两台服务器之间打开了大约 30 个套接字。

我们删除了这个选项,并在表示服务器上重新打包了 war 以包含所有需要的类,从而消除了对网络类加载的需要。这导致两台服务器之间的套接字连接数从数千个减少到 1 个。

总之,尽可能避免在 Weblogic 中加载网络类。

于 2010-03-31T07:22:56.800 回答
1

最后,OptionalDataExceptions 是历史。简而言之,在我们的应用程序代码中,一个复杂的值对象(用作远程方法调用的返回值)具有一个 HashMap 数据结构作为内部字段。将此字段的类型更改为 SynchronizedMap 后,OptionalDataExceptions 停止发生。似乎在遗留代码的某个地方,这个 Map 是以非线程安全的方式处理的。

奇怪的是,这对 WLS 8.1 没有造成任何问题,但不知何故导致 WLS 10 进入所有后续远程方法调用(包括 JNDI 查找)开始失败的状态。

于 2010-08-02T07:36:00.677 回答