问题标签 [qubole]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - SQL代码性能优化建议
我在 Qubole 中有一个代码需要将近 3 个小时才能执行。我正在寻找一些减少代码执行时间的建议。
java - 使用 java 获取 Qubole 数据行明智
我正在尝试使用Qubole SDKhive
运行查询。虽然我能够获得所需的结果,但为了更好地处理它,我希望逐行访问它。类似于 java 对象列表的东西。string
获取数据的方式是:
控制台给出如下输出:
我希望以列表的形式设置这个结果集,我可以对其进行迭代,而不是解析或标记一堆字符串。
如果存在,则无法找到任何库或类。
hadoop - 如何使用 hive 1.2 从 s3 中的镶木地板文件创建外部表?
我在 Qubole(Hive) 中创建了一个外部表,它从 s3 读取 parquet(compressed: snappy) 文件,但是在执行SELECT * table_name
时我得到了除分区列之外的所有列的空值。
我尝试在 SERDEPROPERTIES 中使用不同的 serialization.format 值,但我仍然面临同样的问题。在删除'serialization.format' = '1'
我得到的财产时ERROR: Failed with exception java.io.IOException:Can not read value at 0 in block -1 in file s3://path_to_parquet/
。
我检查了 parquet 文件,并能够使用 parquet-tools 读取数据:
hadoop - 检索使用 hadoop distcp 复制的数据大小
我正在运行一个 hadoop distcp 命令,如下所示:
我想知道通过运行此命令复制的数据的大小。我打算在 Qubole 上运行命令。
任何帮助表示赞赏
json - 使用数据集从 Hive 中的字符串中提取 json 字段
我正在尝试一个非常基本的配置单元查询。我正在尝试从数据集中提取 json 字段,但我总是得到
\N
对于 json 字段,但是 some_string 没问题
这是我的查询:
问题:如何在此处获取 json 字段?
scala - 如何修复 Spark Scala 中的“格式错误的类名”错误?
在 Qubole 笔记本中,我试图从 API 响应中获取某些字符串。对于示例数据,它似乎工作得很好,但是当我使用完整集时失败了。星火版本:2.3.1;斯卡拉版本:2.11;scalaj-http 版本:2.4.2
我为样本数据获得的预期结果示例:
当我尝试处理我必须处理的所有 search_destination_id 时收到错误消息:
请告知导致此错误的原因以及如何避免它。
performance - 使用 Spark Streaming Application 的 Sparklens 进行性能分析
我正在尝试使用sparklens对火花流应用程序进行性能分析。它给出了这样的结果
即使如果我增加执行者,估计的时间也是一样的。
这些建议是否正确?
hive - 如何在qubole上使用avro文件创建hive外部表?
有人可以在文档中指出基于 avro 文件在 qubole 上创建外部表吗?
以下目录有一堆avro文件