问题标签 [qubole]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3696 浏览

sql - Hive 中的分层采样

以下返回按 的值分层的和列的10%样本。AXX

换句话说,如果X取值,[X0, X1]则返回以下的并集:

  • 10% 的行X = X0
  • 10% 的行X = X1

如何按多个列(例如, )的元组值对查询进行分层?XY

例如,如果X采用 values[X0, X1]并且 Y 采用 values [Y0, Y1],我想得到一个样本,它是以下的并集:

  • 10% 的行,其中X = X0Y=Y0
  • 10% 的行,其中X = X0Y=Y1
  • 10% 的行,其中X = X1Y=Y0
  • 10% 的行,其中X = X1Y=Y1
0 投票
2 回答
2009 浏览

hadoop - 自动缩放 EMR - 是否需要?我应该只使用 EC2 吗?我应该只使用 Qubole 吗?

为了减少配置时间,我们决定保留一个具有 5 个实例的专用 EMR 集群(我们预计需要大约 5 个)。如果我们需要更多,我们认为我们需要实现某种自动缩放。

我对 EMR 完全不熟悉——它支持自动缩放吗?我在文档中找到了这个:http: //docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-manage-resize.html

这是寻找自动缩放的正确位置还是我误解了“调整大小”的含义。我读过 EMR 的一个好处是“按需处理”,我认为它可以在 ec2 实例之间分配负载,而无需您指定有多少实例,所以这给我的印象是它可以自行扩展 ec2 实例,这意味着我们不需要自动缩放自己。我是否误解了“按需处理”的含义?

如果我提供的调整大小链接适合我正在尝试做的事情,是否有人有确定何时调整大小的经验?该文档仅描述了如何而不是例如如何设置何时调整大小的警报。我使用了他们的常规自动缩放服务,它允许您根据某些条件调整大小,但我在这里没有看到。

我仍然不确定自动缩放 EMR 是否是一个坏主意——它是否过于复杂(因为有像 Qubole 这样的整个公司都提供这个)或者可能不是很有用,因为 EMR 已经使用了它需要的任何计算能力?我不太了解 EMR 实际提供的功能,所以也许这就是我感到困惑的原因。

0 投票
1 回答
932 浏览

elasticsearch - 使用 Hive/Qubole 插入 ElasticSearch

我正在尝试将数据从配置单元表中插入弹性搜索。

但是,数据已关闭。当我在我的另一张桌子上做一个计数(*)时,我得到了 6,000 行。当我搜索 aggr_2014-10-01 索引时,我看到了 10,000 条记录!不知何故,记录被复制(行被复制多次)。也许我可以删除弹性搜索中的重复记录?不知道我会怎么做。

我相信这可能是 Hive/Qubole 为每个映射生成两个任务的结果。如果一个映射器成功,它会尝试杀死另一个映射器。然而,另一个任务已经造成了损害(也就是插入到 ElasticSearch 中)。这是我最好的猜测,但我更愿意知道确切的原因以及是否有办法解决它。

我发现的一件事是将推测执行设置为 false,以便每个映射器只生成一个任务(参见上面的设置)。但是,现在我看到低估了。我相信这可能是由于记录被跳过,但我无法诊断为什么这些记录会首先被跳过。

在这个版本中,这也意味着即使一个任务/映射器失败,整个作业也会失败,然后我需要删除索引(部分数据已上传)并重新运行整个作业(大约需要 4 小时)。

[进度更新]

我试图通过将所有工作放在减速器中来解决这个问题(这是只产生一个任务以确保没有重复记录插入的唯一方法)。

然而,我现在看到了一个巨大的低估!现在只有 2,000 条记录。弹性搜索确实估计了一些东西,但没有达到这个程度。ElasticSearch 中的记录只是较少。这可能是由于任务失败(不再重试)。它可能是从 Qubole/Hive 传递格式错误的条目时开始的。但我设置:

以下是我的查询的其他一些设置:

0 投票
1 回答
203 浏览

mysql - 带有数字的表格中值:计数格式

给定一张桌子

代表这样一个数字序列:0, 0, 0, 0, 0, 0, 0, 1, 2, 2, 2, 4

用 sql 求中位数,在本例中为 0。您将需要在 hive (qubole) 中运行此查询

想法?

0 投票
1 回答
147 浏览

amazon-kinesis - 在 kinesis 上运行 presto 查询时出错

在 kinesis 上运行 presto 查询时出现以下错误。

查询 20151031_142753_00003_xxxxx 失败:帐户 xxxxxx 下的流 xxxxx 超出速率。(服务:AmazonKinesis;状态代码:400;错误代码:ProvisionedThroughputExceededException;请求 ID:94fb720d-7fdb-11e5-994c-83dc0xxxxxx)

我正在使用 qubole 的 presto-kinesis 连接器。

任何想法,如何解决

0 投票
1 回答
109 浏览

mysql - 无法在 Qubole 中创建类似于 mysql 的表

我想在 Qubole 中创建一个外部表,类似于在 Mysql 中创建的表。在mysql中创建表的查询是:

谁能帮我在蜂巢中编写类似的查询。

0 投票
2 回答
442 浏览

qubole - 是否有根据作业输出发送通知的 api?

我知道有 api 可以在作业失败或完成时配置通知。

但是,如果我运行一个 hive 查询来计算表中的行数怎么办。如果返回结果为零,我想向相关方发送电子邮件。我怎样才能做到这一点?

谢谢。

0 投票
1 回答
75 浏览

hadoop - HDFS 数据导出错误:只能复制到 0 个节点,而不是 1 个

在 Qubole 中启动数据导出到 MySQL 时成功运行 Hive 查询后,我收到以下错误(在我的日志文件中):

org.apache.hadoop.ipc.RemoteException: java.io.IOException: File /tmp/mapred/system/CAR/libjars/tmp_clickimpressiontracking.jar4047410322917561880 只能复制到 0 个节点,而不是 1 个

0 投票
1 回答
455 浏览

hadoop - 如何优化我的配置单元查询以从多个表中查找记录总数

我必须生成一个报告,该报告将为我提供表 A、B 和 C 中使用 Hive 存储的事件的计数总和,并且我的 S3 存储桶已按 Organization_id 分区

例如: 表 A – 记录约翰(和其他员工)上班的每一天 表 B – 记录约翰(和其他员工)在工作中拨打或接听的每个电话 表 C – 记录每个约翰(和其他员工)在工作中提交的费用

基本上我想要上个月 John (employee_id) 的 A、B 和 C 计数的总和。如果在 3 个表 A、B 或 C 中的任何一个中有记录,则每个日期应该只有一个记录(如果一个或多个表中有一个日期的记录,则将计数相加)。所以我的输出是:

我想出的查询是:

我有两个问题:

1. 我有正确的查询吗?2. 因为我使用的是“完全外部联接”,所以我在同一日期获得了多个条目。有人可以提出更好的方法来实现结果吗?不同的查询可能

0 投票
1 回答
2405 浏览

scala - 将 Spark DataFrame 数据分成单独的文件

我有来自 s3 文件的以下 DataFrame 输入,需要将数据转换为以下所需的输出。我正在使用带有 Scala 的 Spark 版本 1.5.1,但可以使用 Python 更改为 Spark。欢迎任何建议。

数据帧输入:

期望的输出:

这是我尝试过的现有 Spark Scala 代码:

电流输出:

我现有代码的一些问题是 groupBy 返回一个 GroupedData 对象,我可能不想对该数据执行 count/sum/agg 函数。我正在寻找一种更好的技术来分组和输出数据。数据集非常大。