“qubole”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

76 浏览

qubole - 如何在 Qubole 上升级 Python 版本？

Qubole 上的当前版本是 3.5.3，一些包，如 PyMC3 和未来的 XGBoost 需要更高版本。如何升级？这会影响其他集群的设置吗？

错误信息

qubole

0 投票

1 回答

58 浏览

html - 我可以编写 HTML 脚本并将脚本中的信息传递到 Qubole 上的单元格吗？

是否可以编写 HTML 脚本并让用户在 HTML 脚本上进行交互并将数据传回 zeppelin 单元并让它重新运行传回的数据？谢谢！

更新：

在单击 html 时重新运行单元格取得了一些进展。

单元格我想重新运行并将数据传递到：%pyspark print("Hello"+ zzangular("input"))

或 z.angular("input") 取决于您的 zeppelin 版本。

重新运行单元格的脚本：停止

我遇到的下一个问题是如何将变量从 java 脚本传递到 zzangular("input")

这是有关如何使用 html 中的按钮和输入框进行操作的链接。 https://zeppelin.apache.org/docs/0.7.0/displaysystem/front-end-angular.html

更新

（https://codepen.io/qwertynl/pen/jqIrK）如果您能够调用外部 URL，这应该可以解决大多数人的问题。如果有办法在不获取外部 URL 的情况下完成它，我仍在寻找任何人的解决方案。

0 投票

1 回答

124 浏览

apache-spark - Spark 提交默认命令行选项

我们如何更改 Qubole 中 Spark 提交默认命令行选项中的参数。

虽然在“Spark 提交命令行选项”下有一个选项可以根据需要覆盖这些值，但此选项在 Spark“命令行”中不可用。

apache-spark command default qubole

0 投票

1 回答

213 浏览

sql - 使用 Like 运算符的 Qubole Presto 数据类型“Map”

所以我试图在 Presto 上为 Qubole 查询应用一个简单的类似函数。对于字符串数据类型，我可以简单地做 '%United States of America%'。

但是，对于我尝试应用的列，其基础数据类型为“map”，因此查询失败。如何为 map 数据类型编写 like 运算符，以便它仅获取与模式匹配的列。

sql hive sql-like presto qubole

0 投票

1 回答

97 浏览

spark-structured-streaming - 尝试为 spark 结构化流执行 s3-sqs qubole 连接器

我正在尝试关注https://github.com/qubole/s3-sqs-connector并尝试加载连接器，但似乎连接器在 maven 上不可用，并且在手动生成 buiold 时未加载 sqs 类。有人可以指导我吗？

谢谢，迪佩什

spark-structured-streaming qubole

0 投票

3 回答

62 浏览

hive - 如何使用查询表分区列表

我需要以编程方式查询 Qubole 以获取 Hive 表的分区列表。我可以通过调用此处描述的正确 API 端点来做到这一点，但我想使用qds-sdj-java 客户端来做到这一点（我已经将它用于其他事情）。

在查看客户端的 Javadoc API 文档时，我没有看到这样做的选项。有没有办法，我只是忽略它？直接调用端点是唯一的选择吗？

hive qubole

0 投票

1 回答

342 浏览

amazon-web-services - IAM 角色密钥轮换时避免预签名 URL 过期

在 Airflow 中，我定义了 2 个每天运行的任务：

第一个创建一个 zip 文件并将其保存在 AWS 下s3://{bucket-name}/foo/bar/{date}/archive.zip
第二个预先签署该网址（应在 7 天内到期）并将其发送给 Slack。

因为 Qubole 使用 IAM 角色，所以生成的 url 将在密钥轮换时过期（据我所知不到 24 小时）。

我正在尝试为此找到解决方案。我目前的想法是将第二个任务转移到 AWS lambda 中，并使用 IAM 用户凭证来避免过期问题。

有没有其他方法我可以采取而不会使它过于复杂？

amazon-web-services airflow qubole

0 投票

1 回答

2256 浏览

apache-spark - Pyspark 日志记录：在错误的日志级别打印信息

谢谢你的时间！

在调试我的代码时，我想创建我的（大量）数据的清晰摘要并将其打印到我的输出中，但是一旦完成就停止创建和打印这些摘要以加快速度。有人建议我使用我实施的日志记录。它可以按预期将文本字符串作为消息打印到输出 - 但是在打印数据帧的摘要时，它似乎忽略了日志级别，始终创建它们并打印它们。

记录使用的权利还是有更好的方法来做到这一点？我可以#block 代码行或使用 if 语句等，但它是一个庞大的代码，我知道将来随着更多元素的添加，我需要进行相同的检查 - 看起来就像日志记录应该工作的那样。

输出：

apache-spark logging pyspark qubole

0 投票

1 回答

171 浏览

apache-spark - Spark Structured Streaming 使用 spark-acid writeStream（带检查点）抛出 org.apache.hadoop.fs.FileAlreadyExistsException

在我们的 Spark 应用程序中，我们使用Spark structured streaming. 它使用Kafka as input stream, &HiveAcid as writeStream到 Hive 表。对于，它是从以下HiveAcid位置调用的开源库：https ://github.com/qubole/spark-acidspark acidqubole

下面是我们的代码：

我们能够将应用程序部署到生产环境，并重新部署了几次（~ 10 次）而没有问题。然后它遇到了以下错误：

查询 hiveSink [id = 080a9f25-23d2-4ec8-a8c0-1634398d6d29, runId = 990d3bba-0f7f-4bae-9f41-b43db6d1aeb3] 异常终止：作业因阶段失败而中止：阶段 0.0 中的任务 3 失败 4 次，最近一次失败：在 0.0 阶段丢失任务 3.3（TID 42、10.236.7.228、执行程序 3）：org.apache.hadoop.fs.FileAlreadyExistsException：/warehouse/tablespace/managed/hive/events/year=2020/month=5/day=客户端 10.236.7.228 的 18/delta_0020079_0020079/bucket_00003 已经存在 (...) 在 com.qubole.shaded.orc.impl.PhysicalFsWriter.(PhysicalFsWriter.java:95) 在 com.qubole.shaded.orc.impl.WriterImpl。 (WriterImpl.java:177) 在 com.qubole.shaded.hadoop.hive.ql.io.orc.WriterImpl.(WriterImpl.java:94) 在 com.qubole.shaded.hadoop.hive.ql.io.orc。 OrcFile.createWriter(OrcFile.java:334) 在 com.qubole.shaded.hadoop.hive.ql.io.orc。OrcRecordUpdater.initWriter(OrcRecordUpdater.java:602) 在 com.qubole.shaded.hadoop.hive.ql.io.orc.OrcRecordUpdater.addSimpleEvent(OrcRecordUpdater.java:423) 在 com.qubole.shaded.hadoop.hive.ql。 io.orc.OrcRecordUpdater.addSplitUpdateEvent(OrcRecordUpdater.java:432) 在 com.qubole.shaded.hadoop.hive.ql.io.orc.OrcRecordUpdater.insert(OrcRecordUpdater.java:484) 在 com.qubole.spark.hiveacid。 writer.hive.HiveAcidFullAcidWriter.process(HiveAcidWriter.scala:295) 在 com.qubole.spark.hiveacid.writer.TableWriter$$anon$1$$anonfun$6.apply(TableWriter.scala:153) 在 com.qubole.spark。 hiveacid.writer.TableWriter$$anon$1$$anonfun$6.apply(TableWriter.scala:153) (...) at com.qubole.spark.hiveacid.writer.TableWriter$$anon$1.apply(TableWriter.scala: 153）在 com.qubole.spark.hiveacid.writer.TableWriter$$anon$1。应用（TableWriter.scala:139）

每次重新启动应用程序时，都会显示不同的delta + bucket files已存在错误。但是，这些文件每次启动时都是新创建的（很可能），但不知道为什么会抛出错误。

任何指针将不胜感激。

apache-spark spark-structured-streaming qubole spark-hive spark-checkpoint

0 投票

1 回答

203 浏览

apache-spark - Qubole 上的日志记录和调试

如何登录 Qubole/从 Qubole 上的 spark 访问日志？我的设置：

Java 库 (JAR)
Zeppelin Notebook (Scala)，只需调用库中的方法
Spark、Yarn 集群
库中使用的Log4j2（配置登录stdout）

如何从 log4j2 记录器访问我的日志？到目前为止我尝试了什么：

查看我的口译员的“日志”部分
浏览每个执行程序的 Spark UI 的标准输出日志

apache-spark qubole

问题标签 [qubole]

Reference