“orc”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

673 浏览

hive - 具有不同文件格式的配置单元中的文件大小

我有一个小文件（2MB）。我在这个文件上创建了一个外部配置单元表（存储为文本文件）。我创建了另一个表（存储为 ORC）并从前一个表中复制了数据。当我检查 ORC 表中的数据大小时，它超过了 2MB。
ORC是一种压缩文件格式，所以数据量不应该更小吗？

hive orc

2016-11-24T20:11:47.757

0 投票

0 回答

303 浏览

hive - 蜂巢中的酸性质

只是想知道是否可以在 hive 中以文本文件格式存储的表上运行酸事务。我知道我们可以以文本文件格式存储一个表，并使用 orc 格式创建一个新表，并使用 textfile 表将数据插入其中。有没有其他方法可以减少这种开销？

2016-11-29T09:59:42.853

0 投票

2 回答

3081 浏览

hive - 有没有办法改变存储为 ORC 的配置单元表中的列？

一般来说，Hive 已经存在一个问题（ Is there a way to alter column type in hive table?）。该问题的答案表明可以使用 alter table change 命令更改架构

但是，如果文件存储为 ORC，这也可能吗？

hive orc

2016-11-30T08:01:02.590

0 投票

1 回答

4521 浏览

python - 如何从视频流中提取文本？

我正在使用opencv2和pytesseract从来自我的相机的视频流中提取一些文本。我裁剪图像以获得另一个小图像。我进行了不同的图像处理以使其正常工作。我反转了图像值，模糊了它，二值化了它，但是这些都没有与 tesseract 一起使用。我要提取的数据具有以下形式“浮动/浮动”，这是小图像的示例：

似乎字符没有分开，这是我可以从相机获得的最大分辨率。然后我尝试按颜色过滤，但没有结果，因为它是视频并且背景总是在移动。我将使用任何建议的可以工作的 Python 模块。

python opencv tesseract orc

2016-12-01T09:34:33.333

0 投票

0 回答

219 浏览

apache-spark - 对 Hive ORC 表的 Spark 1.4.1 数据帧查询需要很长时间

我正在使用 Apache Spark 1.4.1（与 Hive 0.13.1 集成）和 Hadoop 2.7

我在 Hive 中创建了一个使用 Snappy 压缩的 ORC 表，并使用 Spark Dataframe API（insertInto 方法）将大约 5000 万条记录插入其中，如下所示：

该表有大约 50-60 列，其中 3 列是 varchar，所有其他列都是 INT 或 FLOAT。

我的问题是，当我使用以下 spark 命令查询表时：

查询没有出来，在上面的查询中卡了几个小时。Spark 控制台日志卡在下面：

16/12/02 00:50:46 INFO DAGScheduler: 从 ShuffleMapStage 70 (MapPartitionsRDD[553] 缓存在 MYTABLE_LOAD.scala:498) 提交 2700 个缺失任务 16/12/02 00:50:46 INFO YarnScheduler: 添加任务集70.0 有 2700 个任务

该表在仓库目录中有 2700 个零件文件。

我已经尝试将 inputDF 合并到 10 个分区，然后再插入到为表创建 270 个部分文件而不是 2700 个的表中，但是查询表给出了同样的问题，即查询不出来。

奇怪的是，当我通过 spark-shell（使用 5g 驱动程序内存调用）调用相同的选择查询时，查询在不到一分钟的时间内给出了结果。

即使对于其他 ORC 表（未 Snappy 压缩），使用 hiveContext.sql 和非常简单的查询（从 table where 选择）查询它们也需要 10 多分钟。

有人可以告诉这里可能是什么问题吗？我认为该表没有问题，因为 spark-shell 查询在这种情况下不起作用。

提前谢谢了。

apache-spark apache-spark-sql spark-dataframe snappy orc

2016-12-02T04:19:29.497

0 投票

1 回答

1426 浏览

scala - 在 Spark 中创建的数据之上创建 Hive 表

我在 Spark 下创建了 ORC 格式的数据，如下所示：

现在我正在尝试在 Hive 中创建一个外部表，如下所示：

当我做：

"select count(*) from mydb.mytable"

我得到计数值为 0。但是在 Spark-shell 下，当我运行时：

我按预期得到了 500,000 行。

似乎“分区”没有被识别或其他东西。如何在 Spark 中创建的数据之上创建“外部”Hive 表？

scala hadoop apache-spark hive orc

2016-12-08T19:47:07.587

0 投票

1 回答

80 浏览

hadoop - 插入分桶表会产生空表

我正在尝试插入分桶表。当我运行查询时，一切看起来都很好，我在报告中看到了一些写入的字节。Hive 日志中也没有任何错误。
但是当我查看表格时，我什么都没有:(

CREATE TABLE test(
test_datestring,
test_idstring,
test_titlestring,)
CLUSTERED BY (
text_date)
INTO 100 Bucket
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
由 '\n' 终止的行存储为
ORC
位置
'hdfs://myserver/data/hive/databases/test.db/test'
TBLPROPERTIES (
'skip.header.line.count'='1',
'transactional' = '真的'）

INSERT INTO test.test
SELECT 'test_date', 'test_id', 'test_title' from test2.green

结果
结束作业 = job_148140234567_254152 将
数据加载到表 test.test
表 test.teststats：[numFiles=100，numRows=1601822，totalSize=9277056，rawDataSize=0]
MapReduce 已启动作业：
Stage-Stage-1：Map：6 Reduce：100累积 CPU：423.34 秒
HDFS 读取：148450105
HDFS 写入：9282219
成功

蜂巢> 从 test.test 限制 2 中选择 *；
OK
耗时：0.124 秒
蜂巢>

hadoop hive hdfs hiveql orc

2016-12-16T18:38:22.457

0 投票

0 回答

483 浏览

apache-spark - 即使查询单列，Spark ORC 阅读器仍在读取完整文件

我们正在使用 spark 1.6.1 构建一个解决方案，我们需要读取一个 ORC 文件并在其上执行业务逻辑。关于读取 ORC 文件的 Spark 文档说，列格式允许读取器仅读取、解压缩和处理当前查询所需的列。但在我们的例子中，即使 SQL 查询只选择一列，SparkUI 也会显示整个文件正在被读取。

我在这里找到了关于 parquet 格式的类似问题 ->在读取特定 Parquet Column 时，读取所有列而不是 Parquet-Sql 中给出的单个列。但这并没有解决。

示例代码

ORC文件已创建如下：

其内容如下：

HDFS 上的 ORC 数据大小为 91.6 M，在 SparkUI 上，相同的数字“91.6 M”显示在阶段选项卡的输入列中。这段代码有什么问题吗？有人可以解释这种行为吗？

火花用户界面

apache-spark orc

2016-12-19T11:55:00.183

0 投票

0 回答

481 浏览

hadoop - 蜂巢数据处理花费的时间比预期的要长

我在 Hive 中遇到了 ORC 类型数据的问题。如果有人遇到类似问题，需要一些建议。

我有大量数据存储在配置单元表（分区和 ORCed）中。ORC 数据大小约为 4 TB。我正在尝试将此数据复制到未压缩的普通配置单元表（相同的表结构）。

该过程永远运行并在追求中占用大量非 DFS 存储。目前该进程运行了 12 小时，占用了 130 TB 的非 DFS。这对于拥有 20 台服务器的 Hadoop 集群来说是非常不正常的。

以下是我的参数：

我想知道这个 ORCed 表上的简单连接或正常分析操作会做什么。理论上，ORC 格式的数据可以提高基本 DML 查询的性能。

如果我做错了什么或者这是正常行为，有人可以告诉我吗？使用 ORCed 数据，这是我的第一次体验。

好吧，在开始时，我看到纱线日志文件被创建得非常大。大多数情况下，它仅以繁重的形式显示错误日志。

谢谢

hadoop hive hadoop-yarn orc

2016-12-26T09:53:36.753

0 投票

1 回答

3591 浏览

scala - 将 DataFrame 保存为 cvs 时 Spark 2.0 DataSourceRegister 配置错误

我正在尝试将数据帧保存到 Spark 2.0、Scala 2.11 中的 cvs（从 Spark 1.6 迁移代码的过程）。

火花会话是否正确构建？

仅在运行时收到错误（代码编译）。

有什么明显的我忽略的吗？需要更多细节？任何建议表示赞赏。谢谢！

scala csv apache-spark dataframe orc

2017-01-06T23:44:06.420

问题标签 [orc]

Reference