问题标签 [orc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hive - 具有不同文件格式的配置单元中的文件大小
我有一个小文件(2MB)。我在这个文件上创建了一个外部配置单元表(存储为文本文件)。我创建了另一个表(存储为 ORC)并从前一个表中复制了数据。当我检查 ORC 表中的数据大小时,它超过了 2MB。
ORC是一种压缩文件格式,所以数据量不应该更小吗?
hive - 蜂巢中的酸性质
只是想知道是否可以在 hive 中以文本文件格式存储的表上运行酸事务。我知道我们可以以文本文件格式存储一个表,并使用 orc 格式创建一个新表,并使用 textfile 表将数据插入其中。有没有其他方法可以减少这种开销?
hive - 有没有办法改变存储为 ORC 的配置单元表中的列?
一般来说,Hive 已经存在一个问题( Is there a way to alter column type in hive table?)。该问题的答案表明可以使用 alter table change 命令更改架构
但是,如果文件存储为 ORC,这也可能吗?
python - 如何从视频流中提取文本?
我正在使用opencv2和pytesseract从来自我的相机的视频流中提取一些文本。我裁剪图像以获得另一个小图像。我进行了不同的图像处理以使其正常工作。我反转了图像值,模糊了它,二值化了它,但是这些都没有与 tesseract 一起使用。我要提取的数据具有以下形式“浮动/浮动”,这是小图像的示例:
似乎字符没有分开,这是我可以从相机获得的最大分辨率。然后我尝试按颜色过滤,但没有结果,因为它是视频并且背景总是在移动。我将使用任何建议的可以工作的 Python 模块。
apache-spark - 对 Hive ORC 表的 Spark 1.4.1 数据帧查询需要很长时间
我正在使用 Apache Spark 1.4.1(与 Hive 0.13.1 集成)和 Hadoop 2.7
我在 Hive 中创建了一个使用 Snappy 压缩的 ORC 表,并使用 Spark Dataframe API(insertInto 方法)将大约 5000 万条记录插入其中,如下所示:
该表有大约 50-60 列,其中 3 列是 varchar,所有其他列都是 INT 或 FLOAT。
我的问题是,当我使用以下 spark 命令查询表时:
查询没有出来,在上面的查询中卡了几个小时。Spark 控制台日志卡在下面:
16/12/02 00:50:46 INFO DAGScheduler: 从 ShuffleMapStage 70 (MapPartitionsRDD[553] 缓存在 MYTABLE_LOAD.scala:498) 提交 2700 个缺失任务 16/12/02 00:50:46 INFO YarnScheduler: 添加任务集70.0 有 2700 个任务
该表在仓库目录中有 2700 个零件文件。
我已经尝试将 inputDF 合并到 10 个分区,然后再插入到为表创建 270 个部分文件而不是 2700 个的表中,但是查询表给出了同样的问题,即查询不出来。
奇怪的是,当我通过 spark-shell(使用 5g 驱动程序内存调用)调用相同的选择查询时,查询在不到一分钟的时间内给出了结果。
即使对于其他 ORC 表(未 Snappy 压缩),使用 hiveContext.sql 和非常简单的查询(从 table where 选择)查询它们也需要 10 多分钟。
有人可以告诉这里可能是什么问题吗?我认为该表没有问题,因为 spark-shell 查询在这种情况下不起作用。
提前谢谢了。
scala - 在 Spark 中创建的数据之上创建 Hive 表
我在 Spark 下创建了 ORC 格式的数据,如下所示:
现在我正在尝试在 Hive 中创建一个外部表,如下所示:
当我做:
"select count(*) from mydb.mytable"
我得到计数值为 0。但是在 Spark-shell 下,当我运行时:
我按预期得到了 500,000 行。
似乎“分区”没有被识别或其他东西。如何在 Spark 中创建的数据之上创建“外部”Hive 表?
hadoop - 插入分桶表会产生空表
我正在尝试插入分桶表。当我运行查询时,一切看起来都很好,我在报告中看到了一些写入的字节。Hive 日志中也没有任何错误。
但是当我查看表格时,我什么都没有:(
CREATE TABLE test
(
test_date
string,
test_id
string,
test_title
string,)
CLUSTERED BY (
text_date)
INTO 100 Bucket
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
由 '\n' 终止的行存储为
ORC
位置
'hdfs://myserver/data/hive/databases/test.db/test'
TBLPROPERTIES (
'skip.header.line.count'='1',
'transactional' = '真的')
INSERT INTO test.test
SELECT 'test_date', 'test_id', 'test_title' from test2.green
结果
结束作业 = job_148140234567_254152 将
数据加载到表 test.test
表 test.teststats:[numFiles=100,numRows=1601822,totalSize=9277056,rawDataSize=0]
MapReduce 已启动作业:
Stage-Stage-1:Map:6 Reduce:100累积 CPU:423.34 秒
HDFS 读取:148450105
HDFS 写入:9282219
成功
蜂巢> 从 test.test 限制 2 中选择 *;
OK
耗时:0.124 秒
蜂巢>
apache-spark - 即使查询单列,Spark ORC 阅读器仍在读取完整文件
我们正在使用 spark 1.6.1 构建一个解决方案,我们需要读取一个 ORC 文件并在其上执行业务逻辑。关于读取 ORC 文件的 Spark 文档说,列格式允许读取器仅读取、解压缩和处理当前查询所需的列。但在我们的例子中,即使 SQL 查询只选择一列,SparkUI 也会显示整个文件正在被读取。
我在这里找到了关于 parquet 格式的类似问题 ->在读取特定 Parquet Column 时,读取所有列而不是 Parquet-Sql 中给出的单个列。但这并没有解决。
示例代码
ORC文件已创建如下:
其内容如下:
HDFS 上的 ORC 数据大小为 91.6 M,在 SparkUI 上,相同的数字“91.6 M”显示在阶段选项卡的输入列中。这段代码有什么问题吗?有人可以解释这种行为吗?
hadoop - 蜂巢数据处理花费的时间比预期的要长
我在 Hive 中遇到了 ORC 类型数据的问题。如果有人遇到类似问题,需要一些建议。
我有大量数据存储在配置单元表(分区和 ORCed)中。ORC 数据大小约为 4 TB。我正在尝试将此数据复制到未压缩的普通配置单元表(相同的表结构)。
该过程永远运行并在追求中占用大量非 DFS 存储。目前该进程运行了 12 小时,占用了 130 TB 的非 DFS。这对于拥有 20 台服务器的 Hadoop 集群来说是非常不正常的。
以下是我的参数:
我想知道这个 ORCed 表上的简单连接或正常分析操作会做什么。理论上,ORC 格式的数据可以提高基本 DML 查询的性能。
如果我做错了什么或者这是正常行为,有人可以告诉我吗?使用 ORCed 数据,这是我的第一次体验。
好吧,在开始时,我看到纱线日志文件被创建得非常大。大多数情况下,它仅以繁重的形式显示错误日志。
谢谢
scala - 将 DataFrame 保存为 cvs 时 Spark 2.0 DataSourceRegister 配置错误
我正在尝试将数据帧保存到 Spark 2.0、Scala 2.11 中的 cvs(从 Spark 1.6 迁移代码的过程)。
火花会话是否正确构建?
仅在运行时收到错误(代码编译)。
有什么明显的我忽略的吗?需要更多细节?任何建议表示赞赏。谢谢!