“qubole”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1023 浏览

pyspark - qubole 上的 pyspark 作业失败，并显示“重试异常读取映射器输出”

我有一个通过 qubole 运行的 pyspark 作业，该作业失败并出现以下错误。

该作业使用以下配置运行：

集群包含 30 个从属设备。m2.2xlarge，4核主从节点。

任何有关问题根本原因的见解都会很有用。

pyspark qubole

0 投票

2 回答

1192 浏览

hadoop - 从 Qubole 将本地 csv 插入 Hive 表

我的本地机器上有一个 csv，我通过 Qubole Web 控制台访问 Hive。我正在尝试将 csv 作为新表上传，但无法弄清楚。我尝试了以下方法：

我收到错误消息No files matching path file

我猜 csv 必须在配置单元实际运行的某个远程服务器中，而不是在我的本地机器上。我看到的解决方案没有解释如何处理这个问题。有人可以帮我注册吗？这？

0 投票

1 回答

84 浏览

hadoop - 将 Hadoop 作业的结果添加到 Hive 表

我有一个只处理大型文本文件的地图作业。对每一行进行分析和分类。MultipleOutputs 用于将每个类别输出到单独的文件中。最终，所有数据都被添加到专用于每个类别的 Hive 表中。我目前的工作流程可以完成这项工作，但有点麻烦。我将添加几个类别，并认为我可以简化流程。我有几个想法，正在寻找一些意见。

当前工作流程：

仅映射作业将大文件划分为类别。输出如下所示：

外部（非 Hadoop）进程将输出文件复制到每个类别的单独目录中。

为每个类别创建一个外部表，然后将数据插入到该类别的永久 Hive 表中。

可能的新工作流程

使用 Spark 循环输出文件，并根据文件名，将数据插入到相应的永久 Hive 表中。
使用 HCatalog 将数据直接从 Mapper 插入到永久 Hive 表中，或者可能是一个 Reducer 或一组专用于每个类别的 Reducer。

hadoop apache-spark hive hcatalog qubole

0 投票

1 回答

318 浏览

amazon-s3 - 在 AWS EMR 上使用 qubole/streamx 时的 AWS S3 访问问题

我使用 qubole/streamx 作为 kafka 接收器连接器来使用 kafka 中的数据并将它们存储在 AWS S3 中。我在 AIM 中创建了一个用户，权限是AmazonS3FullAccess. 然后在 hdfs-site.xml 中设置密钥 ID 和密钥，其中 dir 分配在quickstart-s3.properties.

如下配置：

快速启动-s3.properties：

hdfs-site.xml：

connect-standalone ./connect-standalone.properties ./quickstart-s3.properties并在用于启动接收器连接器时出现此错误。

amazon-s3 apache-kafka apache-kafka-connect qubole

0 投票

1 回答

1071 浏览

amazon-s3 - 如何使用 Qubole Hive 查询从 Amazon S3 的 gz 文件中查询数据？

我需要从 gz 获取特定数据。sql怎么写？我可以只使用 sql 作为表数据库吗？：

但它总是返回错误。

amazon-s3 hive gzip qubole

0 投票

1 回答

114 浏览

python - 更快地比较 S3 存储桶中一天的数据

考虑以下 2 个数据流

盒子中的日志正在传输到 S3 存储桶。要求是将流程 1 替换为流程 2。

现在需要在数据之间进行验证Bucket-1，Bucket-2以保证可以使用流 2。

尝试了以下技术选项：

两者都在有限的数据集上工作，qubole 比 python 脚本更具可扩展性。但是仍然需要很长时间才能完成（从未完成，必须在一夜之间运行后杀死）。我们正在这里查看 50 亿个条目。

询问

问题

对工具有什么建议，如何更快地实现这一目标？

有什么方法可以避免加入吗？

python validation amazon-s3 hive qubole

0 投票

1 回答

1939 浏览

java - 如何优雅地杀死hadoop作业/拦截`hadoop job -kill`

我的 Java 应用程序在 mapper 上运行并使用 Qubole API 创建子进程。应用程序存储子 qubole 查询 ID。我需要在退出前拦截终止信号并关闭子进程。hadoop job -kill jobId并且yarn application -kill applicationId命令正在以 SIGKILL 方式杀死工作，我不知道如何拦截关机。是否可以以某种方式拦截作业终止或配置 hadoop 以使应用程序有机会正常关闭？

应用程序在本地运行时成功拦截了使用ShutdownHook，而不是在映射器容器中并且能够杀死它的子进程。

请建议在映射器中运行时如何拦截关机，或者我做错了什么？

java hadoop mapreduce qubole

0 投票

0 回答

767 浏览

apache-kafka - Kafka Connect Hive 集成问题

我正在使用 kafka connect 进行 hive 集成来创建 hive 表以及 s3 上的分区。在开始连接分布式进程并进行 post 调用以监听主题后，只要主题中有一些数据，我就可以在日志中看到数据正在提交到 s3，如下所示。

但是在第一次提交后，我得到以下异常：

一个奇怪的观察是，如果我删除这个特定的作业并使用相同的配置再次提交它，主题中的进一步数据将毫无例外地提交给 s3。就在第一次提交之后，我看到了这个异常。

我在通话后使用的负载是：

关于我做错了什么或我是否遗漏了什么的任何指示都会有所帮助。

apache-kafka apache-kafka-connect confluent-platform qubole

0 投票

1 回答

227 浏览

hive - 如何从工作日中选择记录？

我有包含每日记录的配置单元表。我想从工作日中选择记录。所以我使用波纹管蜂巢查询来做到这一点。我正在使用 QUBOLE API 来执行此操作。

但是，当我运行此代码时，它带有波纹管错误。

SemanticException [错误 10011]：第 4:12 行无效函数“date_format”

Qbole 不支持 date_format 函数吗？还有其他方法可以选择工作日吗？

hive qubole

0 投票

1 回答

228 浏览

apache-spark - java.io.FileNotFound 异常同时写入 qubole 中的 apache spark

我在 qubole 上运行的 apache spark 1.6.3 中有一个代码，它将数据写入 s3 上的多个表（镶木地板格式）。在写信给表格时，我不断收到java.io.FileNotFound exception.

我什至在设置：spark.sql.parquet.output.committer.class=org.apache.spark.sql.parquet.DirectParquetOutputCommitter.
但这似乎并不能解决我的问题。此外，在检查日志时，我发现异常是由于_temporary location being missing. 我不明白为什么 _temporary 位置即使在使用DirectParquetOutputCommitter. 此异常不断发生。

如果有人知道在qubole中解决这个问题，请告诉我。谢谢。

apache-spark amazon-s3 eventual-consistency qubole

问题标签 [qubole]

Reference