问题标签 [qubole]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
124 浏览

qubole - 如何将 .py 文件导入 Qubole?

我正在连接到 Azure 数据湖,我在那里有文件,但它位于不同的路径中,我不知道如何导入它。预先感谢您的帮助!

0 投票
1 回答
132 浏览

amazon-web-services - 如何在 Qubole 中将 --properties-file 传递给 spark-submit?

我通过在 AWS 中创建集群在 Qubole 中使用 Spark。在Qubole Workbench中,当我执行以下命令行时,它工作正常并且命令成功

/usr/lib/spark/bin/spark-submit s3://bucket-name/SparkScripts/test.py

但是,当我执行相同的命令以及 --properties-file 选项

/usr/lib/spark/bin/spark-submit --properties-file s3://bucket-name/SparkScripts/properties.file s3://bucket-name/SparkScripts/test.py

它给出了以下错误消息

Qubole > Shell 命令失败,退出代码:1

应用 > 获取初始化 Qubole 安全提供程序所需的有效配置时发生错误

应用程序 > 线程“主”java.lang.IllegalArgumentException 中的异常:要求失败:属性文件 s3:/bucket-name/SparkScripts/properties.file 不存在

有人可以帮我解决这个问题吗?我需要将一些应用程序属性存储在 Amazon S3 上的单独文件中,并传递给 --properties-file 到我的 spark 程序。

0 投票
2 回答
177 浏览

qubole - 如何使用 PySpark 升级 Qubole 的 Jupyter Notebook 中的库?

有没有办法直接从笔记本中的单元格中做到这一点?类似于pip install ... --upgrade 我不知道如何执行https://docs.qubole.com/en/latest/faqs/general-questions/install-custom-python-libraries.html#pre-installed-python-libraries上的指示 当前的 Python 版本是 3.5.3,Pandas 是 0.20.1。我需要升级 Pandas 和 Matplotlib

0 投票
1 回答
95 浏览

python - Qubole Notebook中matplotlib图的比例图大小

是否有可能增加在 qubole 笔记本中使用 z.showplot() 绘制的图的大小。

0 投票
1 回答
79 浏览

amazon-web-services - 设置 AWS Glue 以抓取 Qubole

目前我与 Qubole 合作访问 Hive 数据。我添加了来自多个数据库的元数据,并希望将所有 Hive 元数据添加到 AWS Glue。这可能吗?任何帮助表示赞赏。

0 投票
1 回答
73 浏览

python - Qubole 中基于宽数据的 PySpark 机器学习

我有一个包含大约 250 个特征的大型数据集,我想在梯度增强树分类器中使用它。我有数百万个观察值,但我无法让模型处理我的数据的 1%(约 30 万个观察值)。下面是我的代码片段。我无法为您分享任何数据,但所有特征都是数字的(数字变量或各种因子水平的虚拟变量)。我VectorAssembler用来创建一个features变量,其中包含来自相应观察的特征向量。

当我减少模型使用的特征数量时,比如说 5,模型运行没有问题。只有当我通过添加大量功能使问题变得更复杂时,它才会开始失败。我得到的错误是TTransport Exception. 该模型将尝试运行数小时,然后才会出错。我正在使用 Qubole 构建我的模型。我是 Qubole 和 PySpark 的新手,所以我不确定我的问题是火花内存问题还是 Qubole 内存(我的集群有 4+ TB,数据只有几 GB)等等。

任何有关测试/调试的想法或想法都会有所帮助。谢谢。

0 投票
2 回答
246 浏览

scala - 在调度程序中运行 Scala 作业

我的作业在我的笔记本中运行良好,但是当我将脚本复制并粘贴到 Spark Scala 计划作业中时,我遇到了诸如“script.scala:15: error: not found: value sqlContext”之类的错误。

我需要做什么才能按计划作业运行我的 Scala 代码?

0 投票
2 回答
49 浏览

qubole - 在 testdrive 帐户中休息 api?

嗨,我正在使用 Qubole 试用版,它是试驾帐户,所以我没有从控制面板获取 API 令牌,我在 qubole 中的帐户选项卡有没有办法现在访问 REST API?

提前致谢

0 投票
1 回答
154 浏览

apache-spark - 用于 Spark 结构化流的 Qubole Kinesis 连接器引发错误

我们正在使用 Qubole Kinesis 连接器 (jar) 进行 Spark 结构化流式传输。这曾经可以正常工作,但突然间,它抛出错误“未找到 S3 文件系统”。

我们可以使用 KCL,但我们需要针对 foreachbatch 对其进行测试。是否有任何其他可用的 Kinesis 连接器可提供无缝写入操作?

0 投票
1 回答
208 浏览

amazon-web-services - 无法在启用默认 AWS KMS 加密的情况下从 S3 存储桶写入或读取

如果不在我的 Qubole 集群上使用以下配置,我将无法读取或写入默认 AWS KMS 加密存储桶

但是,如果我启用此配置,它也只会将加密数据写入所有其他存储桶(未启用加密)。

有解决办法吗?