我正在尝试使用 Linux 命令行工具“Poppler”从 pdf 文件中提取信息。我想为几个 Spark 工作人员的大量 PDF 执行此操作。我需要使用 Popples,而不是 PyPDF 或类似的东西。
有人知道如何在工人身上安装 Poppler 吗?我知道我可以在 python 中进行命令行调用,并获取输出(或通过 Poppler lib 获取生成的文件),但是如何将它安装在每个工作人员上?我正在使用 spark 1.3.1 (databricks)。
谢谢!
我正在尝试使用 Linux 命令行工具“Poppler”从 pdf 文件中提取信息。我想为几个 Spark 工作人员的大量 PDF 执行此操作。我需要使用 Popples,而不是 PyPDF 或类似的东西。
有人知道如何在工人身上安装 Poppler 吗?我知道我可以在 python 中进行命令行调用,并获取输出(或通过 Poppler lib 获取生成的文件),但是如何将它安装在每个工作人员上?我正在使用 spark 1.3.1 (databricks)。
谢谢!
正确的方法是在您最初设置所有工作人员时将其安装到所有工作人员上,就像安装任何其他 Linux 应用程序一样。正如您已经指出的那样,您可以在 Python 中进行脱壳。
addFile
如果出于某种原因这不是一个选项,那么您可以使用以下方法将文件发送给所有工作人员:http: //spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.SparkContext.addFile
请注意,后一种方法不处理依赖项(库等)。