我有一个简单的 Pyspark 代码
导入 pyarrow fs = pyarrow.hdfs.connect()
如果我在“客户端”模式下使用 spark-submit 运行它,它工作正常,但在“集群”模式下,会引发错误
Traceback (most recent call last):
File "t3.py", line 17, in <module>
fs = pa.hdfs.connect()
File "/opt/anaconda/3.6/lib/python3.6/site-packages/pyarrow/hdfs.py", line 181, in connect
kerb_ticket=kerb_ticket, driver=driver)
File "/opt/anaconda/3.6/lib/python3.6/site-packages/pyarrow/hdfs.py", line 37, in __init__
self._connect(host, port, user, kerb_ticket, driver)
File "io-hdfs.pxi", line 99, in pyarrow.lib.HadoopFileSystem._connect
File "error.pxi", line 79, in pyarrow.lib.check_status
pyarrow.lib.ArrowIOError: HDFS connection failed
所有必要的 python 库都安装在我的 Hadoop 集群中的每个节点上。我已经通过在 pyspark 每个节点下单独测试此代码来验证。
但不能通过集群模式下的 spark-submit 使其工作?
有任何想法吗?
尚卡尔