问题标签 [qubole]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1023 浏览

pyspark - qubole 上的 pyspark 作业失败,并显示“重试异常读取映射器输出”

我有一个通过 qubole 运行的 pyspark 作业,该作业失败并出现以下错误。

该作业使用以下配置运行:

集群包含 30 个从属设备。m2.2xlarge,4核主从节点。

任何有关问题根本原因的见解都会很有用。

0 投票
2 回答
1192 浏览

hadoop - 从 Qubole 将本地 csv 插入 Hive 表

我的本地机器上有一个 csv,我通过 Qubole Web 控制台访问 Hive。我正在尝试将 csv 作为新表上传,但无法弄清楚。我尝试了以下方法:

我收到错误消息No files matching path file

我猜 csv 必须在配置单元实际运行的某个远程服务器中,而不是在我的本地机器上。我看到的解决方案没有解释如何处理这个问题。有人可以帮我注册吗?这?

0 投票
1 回答
84 浏览

hadoop - 将 Hadoop 作业的结果添加到 Hive 表

我有一个只处理大型文本文件的地图作业。对每一行进行分析和分类。MultipleOutputs 用于将每个类别输出到单独的文件中。最终,所有数据都被添加到专用于每个类别的 Hive 表中。我目前的工作流程可以完成这项工作,但有点麻烦。我将添加几个类别,并认为我可以简化流程。我有几个想法,正在寻找一些意见。

当前工作流程:

  1. 仅映射作业将大文件划分为类别。输出如下所示:
    类别1-m-00000
    类别1-m-00001
    类别1-m-00002
    类别2-m-00000
    类别2-m-00001
    类别2-m-00002
    类别3-m-00000
    类别3-m-00001
    类别3-m-00002
  1. 外部(非 Hadoop)进程将输出文件复制到每个类别的单独目录中。
    类别1/00000
    类别1/00001
    类别1/00002
    类别2/00000
    类别2/00001
    类别2/00002 类别
    3/00000 类别
    3/00001 类别
    3/00002
  1. 为每个类别创建一个外部表,然后将数据插入到该类别的永久 Hive 表中。

可能的新工作流程

  • 使用 Spark 循环输出文件,并根据文件名,将数据插入到相应的永久 Hive 表中。
  • 使用 HCatalog 将数据直接从 Mapper 插入到永久 Hive 表中,或者可能是一个 Reducer 或一组专用于每个类别的 Reducer。
0 投票
1 回答
318 浏览

amazon-s3 - 在 AWS EMR 上使用 qubole/streamx 时的 AWS S3 访问问题

我使用 qubole/streamx 作为 kafka 接收器连接器来使用 kafka 中的数据并将它们存储在 AWS S3 中。我在 AIM 中创建了一个用户,权限是AmazonS3FullAccess. 然后在 hdfs-site.xml 中设置密钥 ID 和密钥,其中 dir 分配在quickstart-s3.properties.

如下配置:

快速启动-s3.properties:

hdfs-site.xml:

connect-standalone ./connect-standalone.properties ./quickstart-s3.properties并在用于启动接收器连接器时出现此错误。

0 投票
1 回答
1071 浏览

amazon-s3 - 如何使用 Qubole Hive 查询从 Amazon S3 的 gz 文件中查询数据?

我需要从 gz 获取特定数据。sql怎么写?我可以只使用 sql 作为表数据库吗?:

但它总是返回错误。

0 投票
1 回答
114 浏览

python - 更快地比较 S3 存储桶中一天的数据

考虑以下 2 个数据流

盒子中的日志正在传输到 S3 存储桶。要求是将流程 1 替换为流程 2。

现在需要在数据之间进行验证Bucket-1Bucket-2以保证可以使用流 2。

尝试了以下技术选项:

两者都在有限的数据集上工作,qubole 比 python 脚本更具可扩展性。但是仍然需要很长时间才能完成(从未完成,必须在一夜之间运行后杀死)。我们正在这里查看 50 亿个条目。

询问

问题

对工具有什么建议,如何更快地实现这一目标?

有什么方法可以避免加入吗?

0 投票
1 回答
1939 浏览

java - 如何优雅地杀死hadoop作业/拦截`hadoop job -kill`

我的 Java 应用程序在 mapper 上运行并使用 Qubole API 创建子进程。应用程序存储子 qubole 查询 ID。我需要在退出前拦截终止信号并关闭子进程。hadoop job -kill jobId并且yarn application -kill applicationId命令正在以 SIGKILL 方式杀死工作,我不知道如何拦截关机。是否可以以某种方式拦截作业终止或配置 hadoop 以使应用程序有机会正常关闭?

应用程序在本地运行时成功拦截了使用ShutdownHook,而不是在映射器容器中并且能够杀死它的子进程。

请建议在映射器中运行时如何拦截关机,或者我做错了什么?

0 投票
0 回答
767 浏览

apache-kafka - Kafka Connect Hive 集成问题

我正在使用 kafka connect 进行 hive 集成来创建 hive 表以及 s3 上的分区。在开始连接分布式进程并进行 post 调用以监听主题后,只要主题中有一些数据,我就可以在日志中看到数据正在提交到 s3,如下所示。

但是在第一次提交后,我得到以下异常:

一个奇怪的观察是,如果我删除这个特定的作业并使用相同的配置再次提交它,主题中的进一步数据将毫无例外地提交给 s3。就在第一次提交之后,我看到了这个异常。

我在通话后使用的负载是:

关于我做错了什么或我是否遗漏了什么的任何指示都会有所帮助。

0 投票
1 回答
227 浏览

hive - 如何从工作日中选择记录?

我有包含每日记录的配置单元表。我想从工作日中选择记录。所以我使用波纹管蜂巢查询来做到这一点。我正在使用 QUBOLE API 来执行此操作。

但是,当我运行此代码时,它带有波纹管错误。

SemanticException [错误 10011]:第 4:12 行无效函数“date_format”

Qbole 不支持 date_format 函数吗?还有其他方法可以选择工作日吗?

0 投票
1 回答
228 浏览

apache-spark - java.io.FileNotFound 异常同时写入 qubole 中的 apache spark

我在 qubole 上运行的 apache spark 1.6.3 中有一个代码,它将数据写入 s3 上的多个表(镶木地板格式)。在写信给表格时,我不断收到java.io.FileNotFound exception.

我什至在设置:spark.sql.parquet.output.committer.class=org.apache.spark.sql.parquet.DirectParquetOutputCommitter.
但这似乎并不能解决我的问题。此外,在检查日志时,我发现异常是由于_temporary location being missing. 我不明白为什么 _temporary 位置即使在使用DirectParquetOutputCommitter. 此异常不断发生。

如果有人知道在qubole中解决这个问题,请告诉我。谢谢。