问题标签 [qubole]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server - 无法从 Qubole 中的 Presto 连接 ms sql 服务器
我在 Microsoft Azure 上使用 Qubole 数据服务。我在 Qubole 中创建了 Presto 集群。我想从 Presto 连接到 MS SQL Server 以从 MS SQL Server 读取数据。我在“/usr/lib/qubole/packages/presto-0.157/presto/plugin”这个路径上创建了sqlserver目录并添加了以下jar:presto-base-jdbc-0.180 presto-sqlserver-0.180 mssql-jdbc-6.1。 0.jre8
还将 sqlserver.properties 文件添加到 /usr/lib/qubole/packages/presto-0.157/presto/etc/catalog
错误:
查询 20171215_134323_00008_jzzyq 失败:com.facebook.presto.sql.analyzer.SemanticException
目录 sqlserver 不存在
com.facebook.presto.sql.analyzer.StatementAnalyzer$Visitor.visitTable(StatementAnalyzer.java:777)
com.facebook.presto.sql.analyzer.StatementAnalyzer$Visitor.visitTable(StatementAnalyzer.java:244)
com.facebook.presto.sql.tree.Table.accept(Table.java:53)
com.facebook.presto.sql.tree.AstVisitor.process(AstVisitor.java:27)
python - Qubole:如何在 python 中下载调度程序结果?
像标题一样,我管理自己使用 python 中的查询 ID 下载 Qubole 结果,但是,有没有一种方法可以使用调度程序作业 ID 而不是查询 ID 下载结果?
谢谢。
apache-spark - 在 Qubole 中运行 TensorFlow
我正在尝试在 Qubole 中使用 Spark python Notebook 训练 LSTM。当我尝试拟合模型时,我收到以下错误。
I tensorflow/core/platform/cpu_feature_guard.cc:137] 您的 CPU 支持未编译此 TensorFlow 二进制文件以使用的指令:SSE4.1 SSE4.2 AVX
为什么会发生此错误,我该如何克服?
hadoop - YARN 容器包装
Qubole 已经在 YARN 中为云部署实现了 Container Packing以降低基础设施成本,开源世界中是否有类似的实现?
apache-spark - 使用 Spark 在 Qubole Metastore 中设置分区位置
如何在 Qubole Metastore 中为我的 Hive 表设置分区位置?我知道这是 MySQL DB,但是如何访问它并使用 Spark 传递带有修复程序的 SQL 脚本?
UPD:问题是 ALTER TABLE table_name [PARTITION (partition_spec)] SET LOCATION 对于 > 1000 个分区工作缓慢。你知道如何直接为 Qubole 更新 Metastore 吗?我想将位置批量传递给 Metastore 以提高性能。
scala - UDF 生成行为不一致的 JSON 字符串
我正在尝试生成一个 JSON 字符串以将可变数量的历史记录存储在单个 STRING 列中。该代码适用于我所有的小型测试,但在实际数据上运行时失败(没有错误,只是没有数据)。这是我所拥有的:
调用 Scala 函数的非常简单的测试工作正常:
创建 UDF 并应用于小型 DataFrame 工作正常:
针对实际数据运行它失败(再次没有错误,只是没有数据):
(版本:java 1.8.0_60、spark 2.2.0、scala 2.11.8)
关于为什么我在使用较大的 DataFrame 时得到一个空的 JSON 对象的任何想法?
hive - 在和不在 HiveQL 中
我是 HiveQL 的新手,它是否支持 IN 和 NOT IN?特别是在使用 Qubole 时?
这是我的查询:
我的错误是
“查询中不支持的语言功能:”
apache-spark - 在包装数组中获取非空值
我有一个 Wrapped Array,并且只想在使用LATERAL VIEW EXPLODE查询时获取 Non Null 值。我也试过IS NOT NULL但这不会返回任何东西。
样本结构:
列名:数组
架构是
我的查询:
我的结果:
WHen 使用IS NOT NULL:
什么都没有返回。
我需要:
如何修复我的查询以获得上述结果?
hive - 使用 Single Query Hive 获取所有列统计信息
我知道可以使用命令为 Hive 表计算所有列统计信息 -
然后可以通过命令获取特定列级别的统计信息 -
是否可以使用单个命令获取所有列统计信息?
java - 修复 java.lang.NoSuchMethodError: com.amazonaws.util.StringUtils.trim
考虑以下错误:
和以下代码:
这条线:当我在 Qubole 中运行它但在本地机器上运行良好时System.out.println(StringUtils.trim("hi"));
导致。java.lang.NoSuchMethodError: com.amazonaws.util.StringUtils.trim
这是我的 POM 导入:
使用 Uber JAR 插件:
com.amazonaws.util.StringUtils.trim
为什么即使我在文件中导入它,在 POM 中导入它,并将所有依赖项导出到一个胖 JAR 中,Hadoop 也找不到?
我需要什么进口才能使用com.amazonaws.util.StringUtils.trim
?
这是我的依赖项