amazon-web-services - 在 EMR 上使用笔记本时如何在 PySpark 中包含包？

Question

我目前正在尝试使用使用 EMR 的笔记本分析一些数据。我遇到的问题是，当我使用 PySpark 内核时，我无法弄清楚如何包含特定的工件。具体来说，我正在尝试包含 org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0 在启动 PySpark 环境时，我通常会在命令行中简单地使用 --packages争论。我是否必须包含一个引导操作？我不完全确定我什至会放在那里。非常感激任何的帮助。

score 6 · Accepted Answer

我在 reddit 上问过，EMR 团队的某个人回答说：

您可以使用%%configure块作为笔记本中的第一个单元格来指定其他包。在你的情况下，这看起来像这样：

%%configure
{ "conf": {"spark.jars.packages": "org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0" }}

这是加载 spark-avro的示例笔记本的屏幕截图。

（免责声明：EMR 团队的 AWS 员工）

amazon-web-services - 在 EMR 上使用笔记本时如何在 PySpark 中包含包？

1 回答 1

Related

Reference