最近我们遇到了一个问题,如标题中所述,每月一次。在 Metastore 节点上,我们已经安装并启动了 ntpd 服务以与 kerberos 服务器同步时间。节点上的 krb5.conf 如下所示:
[libdefaults]
default_realm = EXAMPLE.COM
dns_lookup_realm = true
dns_lookup_kdc = true
ticket_lifetime = 24h
renew_lifetime = 7d
forwardable = true
因此,metastore 上的时间与 kerberos 服务器(>=5 分钟)不同步导致问题或网络阻塞的可能性似乎较小。
从metastore日志看,“Clock skew too great”异常记录时间是乱序的,比如,
2016-01-16 18:18:48,071 错误 [pool-3-thread-63735]
2016-01-16 19:07:03,699 错误 [pool-3-thread-63798]
2016-01-16 19:06:55,998错误 [pool-3-thread-63796]
2016-01-16 19:06:41,653 错误 [pool-3-thread-63812]
2016-01-16 19:04:28,659 错误 [pool-3-thread-63806]
2016-01-16 19:04:13,937 错误 [pool-3-thread-63804]
2016-01-16 19:02:19,312 错误 [pool-3-thread-63809]
2016-01-16 19:02:13,115错误 [pool-3-thread-63794]
2016-01-16 19:02:06,028 错误 [pool-3-thread-63800]
2016-01-16 19:01:50,767 错误 [pool-3-thread-63795]
2016-01-16 18:59:36,926 错误 [pool-3-thread-63810]
2016-01-16 18:59:36,394 错误 [pool-3-thread-63797]
异常堆栈:
2016-01-16 18:59:36,394 错误 [pool-3-thread-63797]: transport.TSaslTransport (TSaslTransport.java:open(296)) - SASL 协商失败 javax.security.sasl.SaslException:GSS 启动失败 [由 GSSException 引起:在 GSS-API 级别未指定故障(机制级别:时钟偏差太大(37))] 在 com.sun.security.sasl.gsskerb.GssKrb5Server.evaluateResponse(GssKrb5Server.java:177) 在 org.apache.thrift.transport.TSaslTransport$SaslParticipant.evaluateChallengeOrResponse(TSaslTransport.java:509) 在 org.apache.thrift.transport.TSaslTransport.open(TSaslTransport.java:264) 在 org.apache.thrift.transport.TSaslServerTransport.open(TSaslServerTransport.java:41) 在 org.apache.hadoop.hive.thrift.HadoopThriftAuthBridge$HiveSaslServerTransportFactory.getTransport(HadoopThriftAuthBridge.java:172) 在 org.apache.hadoop.hive.thrift.HadoopThriftAuthBridge20S$Server$TUGIAssumingTransportFactory$1.run(HadoopThriftAuthBridge20S.java:678) 在 org.apache.hadoop.hive.thrift.HadoopThriftAuthBridge20S$Server$TUGIAssumingTransportFactory$1.run(HadoopThriftAuthBridge20S.java:675) 在 java.security.AccessController.doPrivileged(本机方法) 在 javax.security.auth.Subject.doAs(Subject.java:356) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1536) 在 org.apache.hadoop.hive.thrift.HadoopThriftAuthBridge20S$Server$TUGIAssumingTransportFactory.getTransport(HadoopThriftAuthBridge20S.java:675) 在 org.apache.thrift.server.TThreadPoolServer$WorkerProcess.run(TThreadPoolServer.java:189) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run(Thread.java:744) 原因:GSSException:在 GSS-API 级别未指定故障(机制级别:时钟偏差太大 (37)) 在 org.apache.thrift.transport.TSaslServerTransport.handleSaslStartMessage(TSaslServerTransport.java:125) 在 org.apache.thrift.transport.TSaslTransport.open(TSaslTransport.java:253) 在 org.apache.thrift.transport.TSaslServerTransport.open(TSaslServerTransport.java:41) 在 org.apache.hadoop.hive.thrift.HadoopThriftAuthBridge$HiveSaslServerTransportFactory.getTransport(HadoopThriftAuthBridge.java:172) ... 10 更多
环境:
java版本“1.7.0_45” Java HotSpot(TM) 64 位服务器 VM(内部版本 24.51-b03,混合模式) hive-0.13.1.2.1.10.0-hdp
那么,如果我想找出根本原因,我该怎么办?有什么建议么?非常感谢。