问题标签 [qubole]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

86 问题

0 投票

2 回答

124 浏览

qubole - 如何将 .py 文件导入 Qubole？

我正在连接到 Azure 数据湖，我在那里有文件，但它位于不同的路径中，我不知道如何导入它。预先感谢您的帮助！

qubole

2019-11-25T15:20:11.207

0 投票

1 回答

132 浏览

amazon-web-services - 如何在 Qubole 中将 --properties-file 传递给 spark-submit？

我通过在 AWS 中创建集群在 Qubole 中使用 Spark。在Qubole Workbench中，当我执行以下命令行时，它工作正常并且命令成功

/usr/lib/spark/bin/spark-submit s3://bucket-name/SparkScripts/test.py

但是，当我执行相同的命令以及 --properties-file 选项

/usr/lib/spark/bin/spark-submit --properties-file s3://bucket-name/SparkScripts/properties.file s3://bucket-name/SparkScripts/test.py

它给出了以下错误消息

Qubole > Shell 命令失败，退出代码：1

应用 > 获取初始化 Qubole 安全提供程序所需的有效配置时发生错误

应用程序 > 线程“主”java.lang.IllegalArgumentException 中的异常：要求失败：属性文件 s3:/bucket-name/SparkScripts/properties.file 不存在

有人可以帮我解决这个问题吗？我需要将一些应用程序属性存储在 Amazon S3 上的单独文件中，并传递给 --properties-file 到我的 spark 程序。

2019-11-27T12:36:47.413

0 投票

2 回答

177 浏览

qubole - 如何使用 PySpark 升级 Qubole 的 Jupyter Notebook 中的库？

有没有办法直接从笔记本中的单元格中做到这一点？类似于pip install ... --upgrade 我不知道如何执行https://docs.qubole.com/en/latest/faqs/general-questions/install-custom-python-libraries.html#pre-installed-python-libraries上的指示当前的 Python 版本是 3.5.3，Pandas 是 0.20.1。我需要升级 Pandas 和 Matplotlib

qubole

2019-12-06T16:28:06.353

0 投票

1 回答

95 浏览

python - Qubole Notebook中matplotlib图的比例图大小

是否有可能增加在 qubole 笔记本中使用 z.showplot() 绘制的图的大小。

python matplotlib qubole

2019-12-14T13:18:32.517

0 投票

1 回答

79 浏览

amazon-web-services - 设置 AWS Glue 以抓取 Qubole

目前我与 Qubole 合作访问 Hive 数据。我添加了来自多个数据库的元数据，并希望将所有 Hive 元数据添加到 AWS Glue。这可能吗？任何帮助表示赞赏。

amazon-web-services hive aws-glue qubole

2019-12-23T19:07:45.687

0 投票

1 回答

73 浏览

python - Qubole 中基于宽数据的 PySpark 机器学习

我有一个包含大约 250 个特征的大型数据集，我想在梯度增强树分类器中使用它。我有数百万个观察值，但我无法让模型处理我的数据的 1%（约 30 万个观察值）。下面是我的代码片段。我无法为您分享任何数据，但所有特征都是数字的（数字变量或各种因子水平的虚拟变量）。我VectorAssembler用来创建一个features变量，其中包含来自相应观察的特征向量。

当我减少模型使用的特征数量时，比如说 5，模型运行没有问题。只有当我通过添加大量功能使问题变得更复杂时，它才会开始失败。我得到的错误是TTransport Exception. 该模型将尝试运行数小时，然后才会出错。我正在使用 Qubole 构建我的模型。我是 Qubole 和 PySpark 的新手，所以我不确定我的问题是火花内存问题还是 Qubole 内存（我的集群有 4+ TB，数据只有几 GB）等等。

任何有关测试/调试的想法或想法都会有所帮助。谢谢。

python machine-learning pyspark bigdata qubole

2020-01-02T18:33:48.630

0 投票

2 回答

246 浏览

scala - 在调度程序中运行 Scala 作业

我的作业在我的笔记本中运行良好，但是当我将脚本复制并粘贴到 Spark Scala 计划作业中时，我遇到了诸如“script.scala:15: error: not found: value sqlContext”之类的错误。

我需要做什么才能按计划作业运行我的 Scala 代码？

scala qubole

2020-01-07T21:43:53.807

0 投票

2 回答

49 浏览

qubole - 在 testdrive 帐户中休息 api？

嗨，我正在使用 Qubole 试用版，它是试驾帐户，所以我没有从控制面板获取 API 令牌，我在 qubole 中的帐户选项卡有没有办法现在访问 REST API？

提前致谢

qubole

2020-02-04T06:30:47.207

0 投票

1 回答

154 浏览

apache-spark - 用于 Spark 结构化流的 Qubole Kinesis 连接器引发错误

我们正在使用 Qubole Kinesis 连接器 (jar) 进行 Spark 结构化流式传输。这曾经可以正常工作，但突然间，它抛出错误“未找到 S3 文件系统”。

我们可以使用 KCL，但我们需要针对 foreachbatch 对其进行测试。是否有任何其他可用的 Kinesis 连接器可提供无缝写入操作？

apache-spark qubole

2020-02-14T01:38:55.597

0 投票

1 回答

208 浏览

amazon-web-services - 无法在启用默认 AWS KMS 加密的情况下从 S3 存储桶写入或读取

如果不在我的 Qubole 集群上使用以下配置，我将无法读取或写入默认 AWS KMS 加密存储桶

但是，如果我启用此配置，它也只会将加密数据写入所有其他存储桶（未启用加密）。

有解决办法吗？

amazon-web-services amazon-s3 encryption aws-kms qubole

2020-02-20T11:54:39.740

1 2 3 4 5 6 7 8 9 10

问题标签 [qubole]

Reference