问题标签 [qubole]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
76 浏览

qubole - 如何在 Qubole 上升级 Python 版本?

Qubole 上的当前版本是 3.5.3,一些包,如 PyMC3 和未来的 XGBoost 需要更高版本。如何升级?这会影响其他集群的设置吗?

错误信息

0 投票
1 回答
58 浏览

html - 我可以编写 HTML 脚本并将脚本中的信息传递到 Qubole 上的单元格吗?

是否可以编写 HTML 脚本并让用户在 HTML 脚本上进行交互并将数据传回 zeppelin 单元并让它重新运行传回的数据?谢谢!

更新:

在单击 html 时重新运行单元格取得了一些进展。

单元格我想重新运行并将数据传递到:%pyspark print("Hello"+ zzangular("input"))

或 z.angular("input") 取决于您的 zeppelin 版本。

重新运行单元格的脚本:停止

我遇到的下一个问题是如何将变量从 java 脚本传递到 zzangular("input")

这是有关如何使用 html 中的按钮和输入框进行操作的链接。 https://zeppelin.apache.org/docs/0.7.0/displaysystem/front-end-angular.html

更新

(https://codepen.io/qwertynl/pen/jqIrK)如果您能够调用外部 URL,这应该可以解决大多数人的问题。如果有办法在不获取外部 URL 的情况下完成它,我仍在寻找任何人的解决方案。

0 投票
1 回答
124 浏览

apache-spark - Spark 提交默认命令行选项

我们如何更改 Qubole 中 Spark 提交默认命令行选项中的参数。

虽然在“Spark 提交命令行选项”下有一个选项可以根据需要覆盖这些值,但此选项在 Spark“命令行”中不可用。

0 投票
1 回答
213 浏览

sql - 使用 Like 运算符的 Qubole Presto 数据类型“Map”

所以我试图在 Presto 上为 Qubole 查询应用一个简单的类似函数。对于字符串数据类型,我可以简单地做 '%United States of America%'

但是,对于我尝试应用的列,其基础数据类型为“map”,因此查询失败。如何为 map 数据类型编写 like 运算符,以便它仅获取与模式匹配的列。

0 投票
1 回答
97 浏览

spark-structured-streaming - 尝试为 spark 结构化流执行 s3-sqs qubole 连接器

我正在尝试关注https://github.com/qubole/s3-sqs-connector并尝试加载连接器,但似乎连接器在 maven 上不可用,并且在手动生成 buiold 时未加载 sqs 类。有人可以指导我吗?

谢谢, 迪佩什

0 投票
3 回答
62 浏览

hive - 如何使用查询表分区列表

我需要以编程方式查询 Qubole 以获取 Hive 表的分区列表。我可以通过调用此处描述的正确 API 端点来做到这一点,但我想使用qds-sdj-java 客户端来做到这一点(我已经将它用于其他事情)。

在查看客户端的 Javadoc API 文档时,我没有看到这样做的选项。有没有办法,我只是忽略它?直接调用端点是唯一的选择吗?

0 投票
1 回答
342 浏览

amazon-web-services - IAM 角色密钥轮换时避免预签名 URL 过期

在 Airflow 中,我定义了 2 个每天运行的任务:

  • 第一个创建一个 zip 文件并将其保存在 AWS 下s3://{bucket-name}/foo/bar/{date}/archive.zip
  • 第二个预先签署该网址(应在 7 天内到期)并将其发送给 Slack。

因为 Qubole 使用 IAM 角色,所以生成的 url 将在密钥轮换时过期(据我所知不到 24 小时)。

我正在尝试为此找到解决方案。我目前的想法是将第二个任务转移到 AWS lambda 中,并使用 IAM 用户凭证来避免过期问题。

有没有其他方法我可以采取而不会使它过于复杂?

0 投票
1 回答
2256 浏览

apache-spark - Pyspark 日志记录:在错误的日志级别打印信息

谢谢你的时间!

在调试我的代码时,我想创建我的(大量)数据的清晰摘要并将其打印到我的输出中,但是一旦完成就停止创建和打印这些摘要以加快速度。有人建议我使用我实施的日志记录。它可以按预期将文本字符串作为消息打印到输出 - 但是在打印数据帧的摘要时,它似乎忽略了日志级别,始终创建它们并打印它们。

记录使用的权利还是有更好的方法来做到这一点?我可以#block 代码行或使用 if 语句等,但它是一个庞大的代码,我知道将来随着更多元素的添加,我需要进行相同的检查 - 看起来就像日志记录应该工作的那样。

输出:

0 投票
1 回答
171 浏览

apache-spark - Spark Structured Streaming 使用 spark-acid writeStream(带检查点)抛出 org.apache.hadoop.fs.FileAlreadyExistsException

在我们的 Spark 应用程序中,我们使用Spark structured streaming. 它使用Kafka as input stream, &HiveAcid as writeStream到 Hive 表。对于,它是从以下HiveAcid位置调用的开源库:https ://github.com/qubole/spark-acidspark acidqubole

下面是我们的代码:

我们能够将应用程序部署到生产环境,并重新部署了几次(~ 10 次)而没有问题。然后它遇到了以下错误:

查询 hiveSink [id = 080a9f25-23d2-4ec8-a8c0-1634398d6d29, runId = 990d3bba-0f7f-4bae-9f41-b43db6d1aeb3] 异常终止:作业因阶段失败而中止:阶段 0.0 中的任务 3 失败 4 次,最近一次失败:在 0.0 阶段丢失任务 3.3(TID 42、10.236.7.228、执行程序 3):org.apache.hadoop.fs.FileAlreadyExistsException:/warehouse/tablespace/managed/hive/events/year=2020/month=5/day=客户端 10.236.7.228 的 18/delta_0020079_0020079/bucket_00003 已经存在 (...) 在 com.qubole.shaded.orc.impl.PhysicalFsWriter.(PhysicalFsWriter.java:95) 在 com.qubole.shaded.orc.impl.WriterImpl。 (WriterImpl.java:177) 在 com.qubole.shaded.hadoop.hive.ql.io.orc.WriterImpl.(WriterImpl.java:94) 在 com.qubole.shaded.hadoop.hive.ql.io.orc。 OrcFile.createWriter(OrcFile.java:334) 在 com.qubole.shaded.hadoop.hive.ql.io.orc。OrcRecordUpdater.initWriter(OrcRecordUpdater.java:602) 在 com.qubole.shaded.hadoop.hive.ql.io.orc.OrcRecordUpdater.addSimpleEvent(OrcRecordUpdater.java:423) 在 com.qubole.shaded.hadoop.hive.ql。 io.orc.OrcRecordUpdater.addSplitUpdateEvent(OrcRecordUpdater.java:432) 在 com.qubole.shaded.hadoop.hive.ql.io.orc.OrcRecordUpdater.insert(OrcRecordUpdater.java:484) 在 com.qubole.spark.hiveacid。 writer.hive.HiveAcidFullAcidWriter.process(HiveAcidWriter.scala:295) 在 com.qubole.spark.hiveacid.writer.TableWriter$$anon$1$$anonfun$6.apply(TableWriter.scala:153) 在 com.qubole.spark。 hiveacid.writer.TableWriter$$anon$1$$anonfun$6.apply(TableWriter.scala:153) (...) at com.qubole.spark.hiveacid.writer.TableWriter$$anon$1.apply(TableWriter.scala: 153)在 com.qubole.spark.hiveacid.writer.TableWriter$$anon$1。应用(TableWriter.scala:139)

每次重新启动应用程序时,都会显示不同的delta + bucket files已存在错误。但是,这些文件每次启动时都是新创建的(很可能),但不知道为什么会抛出错误。

任何指针将不胜感激。

0 投票
1 回答
203 浏览

apache-spark - Qubole 上的日志记录和调试

如何登录 Qubole/从 Qubole 上的 spark 访问日志?我的设置:

  • Java 库 (JAR)
  • Zeppelin Notebook (Scala),只需调用库中的方法
  • Spark、Yarn 集群
  • 库中使用的Log4j2(配置登录stdout)

如何从 log4j2 记录器访问我的日志?到目前为止我尝试了什么:

  • 查看我的口译员的“日志”部分
  • 浏览每个执行程序的 Spark UI 的标准输出日志