问题标签 [foundry-code-workbooks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
548 浏览

pyspark - 如何遍历代码存储库中的 json 文件并增量附加到数据集

我已经通过数据连接将一个包含 100,000 个大约 100gb 的原始 json 文件的数据集导入到 Foundry 中。我想使用Python Transforms raw file access转换来读取文件,将结构和结构的数组展平到数据帧中,作为对 df 的增量更新。我想使用 *.json 文件的文档中的以下示例中的内容,并将其转换为使用@incremental()装饰器的增量更新。

在@Jeremy David Gamet 的帮助下,我能够开发代码来获得我想要的数据集。

扁平化__df的代码

上面的代码适用于少数文件,因为文件超过 100,0000 我遇到以下错误:

有什么办法吗?

0 投票
1 回答
86 浏览

palantir-foundry - 将预训练的深度学习模型导入 Foundry Codeworkbooks

如何将 Foundry 本地的 h5 模型导入代码工作簿?我想使用如下所示的拥抱人脸库,并且在其文档中,from_pretrained 方法需要一个指向预训练模型所在位置的 URL 路径。

理想情况下,我希望将模型下载到我的本地机器上,将其上传到 Foundry,然后让 Foundry 读取所述模型。

作为参考,我正在尝试在代码工作簿或代码创作上执行此操作。看起来您可以直接使用那里的文件,但我已经阅读了文档,并且给定的示例是针对 CSV 文件的,而此模型包含各种文件,例如 h5 和 json 格式。想知道如何访问这些文件并将它们从转换器包传递到 from_pretrained 方法

相关链接: https ://huggingface.co/transformers/quicktour.html 预训练模型: https ://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english/tree/main

谢谢!

0 投票
1 回答
121 浏览

palantir-foundry - 是否可以将代码工作簿恢复到以前的版本?

我想将意外修改的工作簿恢复到以前的版本。

0 投票
1 回答
150 浏览

python - 如何在代码工作簿中合并 Palantir Foundry 中的两个数据集?

我需要在 Palantir Foundry 的代码工作簿中合并两个数据集,但我不知道该怎么做。我想使用 Pyspark 来做到这一点。我是Foundry的新手,请帮忙!

0 投票
2 回答
276 浏览

join - 如何在代码工作簿中加入 Palantir Foundry 中的两个数据集?

嗨,我知道这是一个基本问题,但我是 Foundry 和 Pyspark 的新手,请帮忙!我需要使用 3 列在 Palantir Foundry 的代码工作簿中加入两个数据集(两个在两者中的名称相同,但一个在数据集中使用不同的名称)我不知道该怎么做。谢谢您的帮助!

0 投票
0 回答
69 浏览

apache-spark - 在 Foundry 的代码工作簿中的 createOrReplaceTempView 之后选择

MRE:

  • 从 Fusion 创建数据集

  • 在代码工作簿中创建了一个转换

在此处输入图像描述

如何从临时视图中将此表作为数据框取回?

我也试过了createOrReplaceGlobalTempView
在代码存储库中,给定的代码片段可以正常工作。

0 投票
1 回答
91 浏览

palantir-foundry - 是否可以从数据集生成pdf并逐步保存到铸造厂

FPDF是一个允许将 pandas 数据框转换为格式良好的 pdf 报告的库。Foundry 代码仓库或代码工作簿中是否有一项功能可以将 pdf 文件从 spark 或 pandas 数据帧写入到 Foundry 中?

我需要从过滤到几行的铸造数据集创建格式良好的 pdf 报告。

在用户https://stackoverflow.com/users/4922673/jackfischer的帮助下,我能够满足要求,但是代码会覆盖现有文件,如何在每次运行代码时使用新文件增量更新数据集. 我正在使用代码工作簿模板功能将参数传递给逻辑,每次传递新参数时,逻辑如何创建新文件

例子 :

  1. 样本文件.txt
  2. 样本文件2.txt
0 投票
1 回答
188 浏览

palantir-foundry - 当我的数据规模较小时,如何在 Palantir Foundry 转换中获得更好的性能?

我的数据集大小都在 1GB 以下,而我的转换的总输出大小在 1GB 以下。我注意到我的工作簿构建对于我期望的数据规模来说非常慢,我想知道我可以转向哪些“拨号”来优化这些。

例如,我在构建的 Spark 详细信息中看到,我的几个阶段有 200 个任务,每个任务只获取几 KB 的数据。那正确吗?

0 投票
1 回答
123 浏览

palantir-foundry - 我如何知道我的 Foundry Job 正在使用 AQE?

我有时听到人们提到这个 AQE 功能,我想知道如何验证我的工作是否正在使用它。我正在代码存储库和代码工作簿中运行转换。

0 投票
1 回答
71 浏览

palantir-foundry - 如何访问从转换上传到文件夹的文件?

我将一个图像文件上传到 Foundry 的一个文件夹中,我想将它用作转换的输入。看起来它作为某种资源存储在名为 Blobster 的服务中,我怎样才能访问该文件并使用它?