问题标签 [parquet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
parquet - 无法从命令行使用镶木地板工具
我正在尝试运行最新版本的 parquet-tools,但遇到了一些问题。由于某种原因org.apache.hadoop.conf.Configuration不在阴影罐中。(我对 v1.6.0 也有同样的问题)。
有什么超出mvn package或mvn install我应该做的事情吗?mvn(我使用的实际调用是mvn install -DskipTests -pl \!parquet-thrift,\!parquet-cascading,\!parquet-pig-bundle,\!parquet-pig,\!parquet-scrooge,\!parquet-hive,\!parquet-protobuf)。这工作得很好,如果我选择运行它们,测试就会通过。
我得到的错误如下(你可以看到我试图从旧的镶木地板版本中粘贴 hadoop jar,该版本似乎将它捆绑到类路径中;无论有没有它,我都会得到相同的结果)。
indexing - Solr indexing parquet file
I have a solr instance up and running and it should read parquet files to index. Right now, I am converting the parquet to flat text file and then having solr index them. I'd like to know if it is possible to read the parquet file directly for Solr to consume?
Thanks
apache-spark - 如何在 Spark 中更高效地加载 Parquet 文件(pySpark v1.2.0)
我正在加载高维镶木地板文件,但只需要几列。我当前的代码如下所示:
我对正在发生的事情的心理模型是它正在加载所有数据,然后丢弃我不想要的列。我显然更喜欢它甚至不阅读那些专栏,并且根据我对镶木地板的理解,这似乎是可能的。
所以有两个问题:
- 我的心智模型错了吗?还是 spark 编译器足够聪明,只能读取上面示例中的 a、b 和 c 列?
- 如何强制
sqc.parquetFile()更有效地读取数据?
csv - 最佳实践:如何处理不断变化的“模式”/“列”的数据记录
这是一个最佳实践问题。
我们的设置是一个 hadoop 集群,在 hdfs 中存储(日志)数据。我们以csv格式获取数据,每天一个文件。在这些文件上运行 hadoop 中的 MR 作业是可以的,只要文件的“模式”,尤其是列数,没有改变。
但是,我们面临的问题是,我们要分析的日志记录最终会发生变化,即可能会添加或删除列。我想知道你们中的一些人是否愿意分享针对此类情况的最佳实践。目前我们能想到的最好的办法就是不把数据存储为csv,而是json格式。但是,这将增加(至少一倍)所需的存储空间。我们也来到了 Apache Avro 和 Apache Parquet,并刚刚开始研究这个。
任何关于这个问题的想法和评论都非常受欢迎。
apache-pig - 猪脚本无法加载可为空的镶木地板数据
我正在尝试编写一个 Pig 脚本来压缩具有镶木地板格式数据的小文件。下面提到的行试图加载目录中的小文件,然后存储它们。这些文件具有复杂的嵌套结构,这些结构可以为空,并且包含许多NULLs。
我收到以下错误:
我怀疑这是因为输入文件中的空值。有人可以帮忙吗?
apache-spark - 从 Spark 保存时 Parquet 错误
在Spark 1.3.0中对DataFrame重新分区后,保存到Amazon 的 S3时出现.parquet异常。
我收到的例外是:
我想知道问题是什么以及如何解决。
apache-spark - 如何在 Spark 中读取嵌套集合
我有一张镶木地板桌,其中一列是
, 数组<struct<col1,col2,..colN>>
可以使用 LATERAL VIEW 语法在 Hive 中针对此表运行查询。
如何将此表读入 RDD,更重要的是如何在 Spark 中过滤、映射等嵌套集合?
在 Spark 文档中找不到对此的任何引用。提前感谢您提供任何信息!
附言。我觉得在桌面上提供一些统计数据可能会有所帮助。主表中的列数~600。行数~200m。嵌套集合中的“列”数 ~10。嵌套集合中的平均记录数 ~35。
logging - 如何在 Spark 中抑制镶木地板日志消息?
如何阻止此类消息出现在我的 spark-shell 控制台上。
谢谢
java - KiteSDK MapReduce:parquet 文件加载期间的 EOF 异常
我有使用KitSDK DatasetKeyInputFormat的 hadoop map-reduce 作业。它被配置为读取镶木地板文件。
每次我运行作业时,我都会遇到以下异常:
错误:java.io.DataInputStream.readFully(DataInputStream.java:197) 处 java.io.DataInputStream.readFully(DataInputStream.java:169) 处 parquet.hadoop.ParquetInputSplit.readArray(ParquetInputSplit.java: 304) 在 parquet.hadoop.ParquetInputSplit.readFields(ParquetInputSplit.java:263) 在 org.apache.hadoop.io.serializer.WritableSerialization$WritableDeserializer.deserialize(WritableSerialization.java:71) 在 org.apache.hadoop.io.serializer .WritableSerialization$WritableDeserializer.deserialize(WritableSerialization.java:42) at org.apache.hadoop.mapred.MapTask.getSplitDetails(MapTask.java:372) at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:754 ) 在 org.apache.hadoop.mapred.MapTask.run(MapTask.java:341) 在 org.apache。hadoop.mapred.YarnChild$2.run(YarnChild.java:163) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop .security.UserGroupInformation.doAs(UserGroupInformation.java:1671) 在 org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)
hive 创建的 map-reduce 作业可以成功读取相同的文件。即我可以查询成功。
为了隔离可能的问题,我基于KiteSDK 示例为 mapreduce创建了 map-reduce 作业。但我仍然得到同样的例外。
注意:AVRO 和 CSV 格式运行良好。
hadoop - 无法创建列数据类型为“STRING”的 Parquet Hive 表
我正在使用 hive-0.12。我使用以下查询成功创建了一个镶木地板表。
但是当我使用 'STRING' 作为列数据类型时,它失败了。
请建议这里可能有什么问题。
谢谢你。