python - 在错误“尝试调用包”时跟踪从 py4j 丢失的导入

Question

给定以下 python 片段：

from pyspark.mydb.mydb import *
class HBaseTest:

  def __init__(self):
    from pyspark.context import SparkContext
    sc = SparkContext('local[4]', 'PythonTest')
    self._hbctx = MyDbSQLContext(sc)

感兴趣的是最后一条：MyDbSQLContext 是 org.apache.spark.mydb 包中的一个类。在 pyspark.mydb.mydb.py 文件中有一个 python 包装器

为了使 py4j java 网关知道导入，执行以下语句：

java_import(self._sc._gateway.jvm,'org.apache.spark.sql.mydb.*')
java_import(self._sc._gateway.jvm,'org.apache.hadoop.conf.Configuration')

但是在原始代码段的最后一行：

    self._hbctx = MyDbSQLContext(sc)

我们收到以下错误：

sc=org.apache.spark.SparkContext@4925069a conf=<py4j.java_gateway.JavaMember object at 0x10bdd5090>
Traceback (most recent call last):
  File "pyspark/hbase/hbase_tests.py", line 81, in <module>
    test._test()
  File "pyspark/hbase/hbase_tests.py", line 76, in _test
    self.create_test_tables()
  File "pyspark/hbase/hbase_tests.py", line 46, in create_test_tables
    self._ctx().sql(create_sql).toRdd().collect()
  File "/shared/pyjava/python/pyspark/sql.py", line 1620, in sql
    return SchemaRDD(self._ssql_ctx.sql(sqlQuery).toJavaSchemaRDD(), self)
  File "/shared/pyjava/python/pyspark/hbase/hbase.py", line 58, in _ssql_ctx
    self._scala_HBaseSQLContext = self._get_hbase_ctx()
  File "/shared/pyjava/python/pyspark/hbase/hbase.py", line 83, in _get_hbase_ctx
    return self._jvm.HBaseSQLContext(self._jsc.sc())
  File "/shared/pyjava/python/lib/py4j-0.8.2.1-src.zip/py4j/java_gateway.py", line 726, in __getattr__
py4j.protocol.Py4JError: Trying to call a package.

更新我花了更多时间分析为 hive 执行导入的方式。它们是通过内部调用compute-classpath.sh的 spark-submit 脚本添加的。我已经正确地将 $MYDB_HOME/lib/* 添加到该脚本的类路径中。mydb jar 文件在类路径中可用：

此外，正在打印 java_imports - 在这里它们确实显示了 mydb 导入：

java_imports: [u'org.apache.hadoop.conf.Configuration', u'org.apache.spark.SparkConf',
u'org.apache.spark.sql.hive.LocalHiveContext', u'org.apache.spark.sql.hive.TestHiveContext', 
u'org.apache.hadoop.mydb.client.Client', u'scala.Tuple2', u'org.apache.spark.sql.mydb.mydbSQLContext', 
u'org.apache.spark.sql.hive.HiveContext', u'java.lang', u'org.apache.hadoop.mydb', u'org.apache.hadoop.mydb.client', 
u'org.apache.hadoop.mydb.filter', u'org.apache.hadoop.mydb.util', u'org.apache.log4j', u'org.apache.spark.api.java', 
u'org.apache.spark.api.python', u'org.apache.spark.mllib.api.python', u'org.apache.spark.sql', u'org.apache.spark.sql.mydb']

目前还不清楚这个问题的根源是什么。我们已经验证：

mydb 类在路径中
java_import 正在导入 mydb 类
AFAICT 导入和使用 hive 类所遵循的模式也同样适用于 mydb

我不知道还要检查什么来跟踪这个 java 类/类路径问题。

python - 在错误“尝试调用包”时跟踪从 py4j 丢失的导入

0 回答 0

Related

Reference