1

我正在研究用于 NLP 处理等的 pyspark。我正在使用 TextBlob Python 库。

通常,在独立模式下,很容易安装外部 Python 库。在集群模式下,我面临在工作节点上远程安装这些库的问题。我无法访问每台工作机器以在 Python 路径中安装这些库。

我尝试使用 Sparkcontext pyfiles 选项来发送.zip文件……但问题是这些 Python 包需要安装在工作机器上。

是否有不同的方法可以使这个 lib-Textblob 在 Python 路径中可用?

4

1 回答 1

1

我尝试使用 Sparkcontext pyfiles 选项来发送 .zip 文件……但问题是这些 Python 包需要安装在工作机器上。

我猜您使用默认 URL 架构(本地:) 本地: - 以本地:/ 开头的 URI 预计将作为每个工作节点上的本地文件存在。这意味着不会产生网络 IO,并且适用于推送给每个工作人员或通过 NFS、GlusterFS 等共享的大型文件/JAR

另一个 URL 架构是file:,每个 executor 都会自动从驱动程序 HTTP 服务器中提取文件,然后您不需要将它们安装在 worker 机器上。file: - 绝对路径和 file:/ URI 由驱动程序的 HTTP 文件服务器提供服务,每个执行程序都从驱动程序 HTTP 服务器提取文件。

请参阅 提交申请 - 高级依赖管理

于 2014-12-11T02:47:31.267 回答