问题标签 [hoodie]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1958 浏览

apache-spark - Spark 流 - 原因:org.apache.parquet.io.ParquetDecodingException:无法读取文件中块 0 中 1 处的值

我使用 spark 将我的 json 数据写入 s3。但是,我不断收到以下错误。我们正在使用 apache hudi 进行更新。这只发生在某些数据上,其他一切正常。

我无法理解。我关注了几个线程并在我的 spark confs 中设置了 --conf "spark.sql.parquet.writeLegacyFormat=true" 。但这也无济于事。

0 投票
1 回答
585 浏览

apache-spark - 将数据插入 Hudi 表时观察到性能下降

我正在使用 Datasource Writer API 将 5000 条记录写入 Hudi 写时复制表,每列有 8 列,总大小小于 1Mb。请参考以下代码。

应用程序通过 spark-submit 提交给 yarn。刚开始插入操作只需要 3~4 秒,但越来越长,比如 5 分钟后的 30 秒。从下面的 spark 日志中可以看出,大部分时间都花在了 HoodieSparkSqlWriter 计数任务上。

我尝试将参数 hoodie.insert.shuffle.parallelism 调整为 20,但没有帮助。并且 CPU/Heap 的使用都是正常的。

以下是应用程序的设置。任何建议表示赞赏。

0 投票
0 回答
9 浏览

reactjs - 如何从电子应用程序启动连帽衫服务器

我正在构建一个离线的第一个应用程序,后端有电子、反应和连帽衫。在开发中一切正常,但为了验证用户身份,我需要在启动电子应用程序时运行连帽服务器。已经尝试了一切,但找不到在生产应用程序中启动服务器的方法。