问题标签 [foundry-code-workbooks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - How do I make my Spark job run faster using executors?
I know my code is free from antipatterns since I don't have any warnings in my Authoring code editor, so I know my code is doing PySpark operations that are distributed and scalable.
My current job has 2 executors assigned to it with 2 cores each, and it runs with task parallelism of 16 as seen on the Spark Details page.
How do I make this job run faster?
palantir-foundry - 我如何知道我的 Foundry 工作是使用静态分配还是动态分配?
我听说有人提到作业可以在静态分配或动态分配中运行。我怎么知道我的工作正在使用哪一个?
palantir-foundry - 我的 Foundry 工作使用了多少个执行器?
我可以在 Spark 详细信息页面中看到我的工作的并行性,但我想知道我的工作实际上与多少个 Executor 一起运行。
我在哪里可以看到这个?
apache-spark - 如何确定我的 Foundry 作业的阶段有偏差?
我的工作似乎需要很长时间才能运行。我听说这可能是由于一种叫做“偏斜”的东西。
我怎么知道我是否受到此影响?
我知道这通常与连接、窗口和其他会导致洗牌的操作相关联,但我不知道如何识别它。
palantir-foundry - Foundry 代码工作簿太慢,如何迭代更快?
我注意到从表中查询时代码工作簿太慢了。它比使用数据仓库中的 SQL 慢得多。快速提取和连接数据以进行迭代分析的正确工作流程是什么?
apache-spark - Spark 何时执行“扫描 ExistingRDD”?
我的工作是接收一个巨大的数据集并将其与另一个数据集连接起来。第一次运行时,它花了很长时间,SparkFileScan parquet在读取数据集时执行了 a,但在未来的作业中,查询计划显示Scan ExistingRDD并且构建需要几分钟。
Spark 为什么以及如何能够扫描现有的 RDD?它会退回到扫描支持数据集的 parquet 文件(并因此恢复到更差的性能)吗?
apache-spark - 挂代工工作;为什么它似乎卡在舞台上?
我从我的工作概述页面中看到,我的工作似乎停留在某个阶段(大多数其他人都花费了合理的时间,其中一个要慢得多)。
当我的一个阶段需要这么长时间才能完成时,这意味着什么?
