我在运行 PySpark 作业时收到以下警告:
2006 年 17 月 10 日 18:27:16 警告 ARPACK:无法从以下位置加载实现:com.github.fommil.netlib.NativeSystemARPACK
2006 年 17 月 10 日 18:27:16 警告 ARPACK:无法从以下位置加载实现:com.github.fommil.netlib.NativeRefARPACK
我的代码是
mat = RowMatrix(tf_rdd_vec.cache())
svd = mat.computeSVD(num_topics, computeU=False)
我正在使用 Ubuntu 16.04 EC2 实例。我已将以下所有库安装到我的系统中。
sudo apt install libarpack2 Arpack++ libatlas-base-dev liblapacke-dev libblas-dev gfortran libblas-dev liblapack-dev libnetlib-java libgfortran3 libatlas3-base libopenblas-base
我已将 LD_LIBRARY_PATH 调整为指向共享库路径,如下所示。
export LD_LIBRARY_PATH=/usr/lib/
现在,当我列出 $LD_LIBRARY_PATH 目录时,它向我显示了以下.so文件
ubuntu:~$ ls $LD_LIBRARY_PATH/*.so | grep "pack\|blas"
/usr/lib/libarpack.so
/usr/lib/libblas.so
/usr/lib/libcblas.so
/usr/lib/libf77blas.so
/usr/lib/liblapack_atlas.so
/usr/lib/liblapacke.so
/usr/lib/liblapack.so
/usr/lib/libopenblasp-r0.2.18.so
/usr/lib/libopenblas.so
/usr/lib/libparpack.so
但我仍然无法使用本机 ARPACK 实现。另外我正在缓存传递给矩阵的 RDD 但它仍然抛出缓存警告任何建议如何解决这 3 个警告?
我已经从 spark 下载页面下载了 spark-2.2.0 的编译版本。