0

我正在尝试按照我已经阅读过的一些说明安装 graphframes 包。

我的第一次尝试是在命令行中执行此操作:

 pyspark--packages graphframes:graphframes:0.5.0-spark2.1-s_2.11

这完美地工作并且在机器中成功地完成了下载。

但是,当我尝试在我的 Jupyter 笔记本中导入包时,它会显示错误:

can't find module 'graphframes'

我的第一次尝试是将包文件夹 /graphframes 复制到 /site-packages,但我无法使用简单的 cp 命令来实现。

我是使用 spark 的新手,我确定我缺少配置的某些部分......

请你帮助我好吗?

4

2 回答 2

0

最简单的方法是使用 pyspark 启动 jupyter,而 graphframes 是从 pyspark 启动 jupyter。

只需打开终端并设置两个环境变量,然后从pysparkgraphframes 包开始

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS=notebook
pyspark --packages graphframes:graphframes:0.6.0-spark2.3-s_2.11

这样做的好处还在于,如果您以后想要通过运行代码,spark-submit可以使用相同的启动命令

于 2019-09-04T13:52:42.010 回答
0

这对我有用。

提取graphframes-xxx-xxx-xxx.jar文件的内容。你应该得到类似的东西

graphframes
 | -- examples
       |-- ...
 | -- __init__.py
 | -- ...

压缩整个文件夹(不仅仅是内容),然后随意命名。我们就叫它吧graphframes.zip

然后,运行 pyspark shell

pyspark --py-files graphframes.zip \
    --packages graphframes:graphframes:0.5.0-spark2.1-s_2.11

你可能需要做

sc.addPyFile('graphframes.zip')

import graphframes
于 2018-05-11T05:58:40.063 回答