问题标签 [foundry-code-workbooks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
99 浏览

apache-spark - How do I make my Spark job run faster using executors?

I know my code is free from antipatterns since I don't have any warnings in my Authoring code editor, so I know my code is doing PySpark operations that are distributed and scalable.

My current job has 2 executors assigned to it with 2 cores each, and it runs with task parallelism of 16 as seen on the Spark Details page.

How do I make this job run faster?

0 投票
1 回答
43 浏览

palantir-foundry - 我如何知道我的 Foundry 工作是使用静态分配还是动态分配?

我听说有人提到作业可以在静态分配或动态分配中运行。我怎么知道我的工作正在使用哪一个?

0 投票
1 回答
46 浏览

palantir-foundry - 我的 Foundry 工作使用了多少个执行器?

我可以在 Spark 详细信息页面中看到我的工作的并行性,但我想知道我的工作实际上与多少个 Executor 一起运行。

我在哪里可以看到这个?

0 投票
1 回答
68 浏览

apache-spark - 如何确定我的 Foundry 作业的阶段有偏差?

我的工作似乎需要很长时间才能运行。我听说这可能是由于一种叫做“偏斜”的东西。

我怎么知道我是否受到此影响?

我知道这通常与连接、窗口和其他会导致洗牌的操作相关联,但我不知道如何识别它。

0 投票
2 回答
81 浏览

palantir-foundry - Foundry 代码工作簿太慢,如何迭代更快?

我注意到从表中查询时代码工作簿太慢了。它比使用数据仓库中的 SQL 慢得多。快速提取和连接数据以进行迭代分析的正确工作流程是什么?

0 投票
1 回答
34 浏览

apache-spark - Spark 何时执行“扫描 ExistingRDD”?

我的工作是接收一个巨大的数据集并将其与另一个数据集连接起来。第一次运行时,它花了很长时间,SparkFileScan parquet在读取数据集时执行了 a,但在未来的作业中,查询计划显示Scan ExistingRDD并且构建需要几分钟。

Spark 为什么以及如何能够扫描现有的 RDD?它会退回到扫描支持数据集的 parquet 文件(并因此恢复到更差的性能)吗?

0 投票
1 回答
72 浏览

apache-spark - 挂代工工作;为什么它似乎卡在舞台上?

我从我的工作概述页面中看到,我的工作似乎停留在某个阶段(大多数其他人都花费了合理的时间,其中一个要慢得多)。

当我的一个阶段需要这么长时间才能完成时,这意味着什么?

0 投票
1 回答
93 浏览

palantir-foundry - 我可以使用哪些技术来缓解倾斜连接?

我已经确定我的挂起工作确实在其连接上存在偏差

我可以使用哪些技术来使我的工作仍然成功?

我的代码如下所示:

我可以看到一项任务特别需要很长时间:

慢任务