问题标签 [data-transform]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何在一列中创建唯一值并合并第二列中的所有其他值?
我有一个看起来像这样的数据框。
我希望为 year 列创建唯一值并合并 bus 列的值。预期输出如下
我尝试过的代码和我得到的输出
代码中有什么错误,我怎样才能达到预期的输出?
pandas - 选择列表内数据框中的行,然后附加到另一个列表中的另一个数据框
我在 n 个数据框列表中有每日股票数据(每只股票都有自己的数据框)。我想从每个数据帧中以相等的时间间隔选择 m 行并将它们附加到另一个列表中的数据帧。基本上,新列表应该有 m 个数据框 - 这是天数,每个数据框长度 n - 股票数量。我尝试使用嵌套的 for 循环,但它不起作用
这段代码没有做任何事情。我的机器只是堆在上面。如果有另一种方法,例如多索引,我也很想尝试。
例如
输入:
输出:
等等。
谢谢
python - Pandas 基于定义列表填充缺失行
Original
DF 具有从表中计算的值。
它可能type
缺少几个 id。但是,目标是明确列出标志exists
。如果不是,type
则应no
在exists
列中添加行。
id=1 在这个例子中很好。如果我只过滤 id=2 并运行以下代码,它会返回 c。然后我可以append
。
但是,正如您所知,这在应用于所有 id 时是不可行的。
我需要帮助,以便将代码应用于所有 ID。
这将返回没有的类型
希望有更好的方法来处理这个问题。
python - Python Pandas 新列基于其他列的值
我有一个看起来像这样的 DF。
每个 id 都有列数。逻辑是查看 T1 并检查程序是否已在 T0 看到。根据发现,将创建一个新列。如果在 T0 找到,则新列将具有相同的name
. 如果在 T0 处没有看到,则name
增加,所以它将是_2
。
Python
输出
这是最终的预期输出。
r - 使 BestNormalize 识别不同的因子水平以更好地进行数据转换
我正在使用 bestNormalize 包来转换具有 5 个因子水平(组)的变量。我使用以下代码转换我的数据并查看转换后数据的直方图和正态性检验结果(nooutliers 是我的数据集,totalscore 是我的因变量,Grade 是具有 5 个因子水平的因子):
我的问题是 bestNormalize 不考虑因子水平并找到最佳转换方法,因为该变量是单个组。结果,我的一个因子水平的转换因变量值不会变得正常。当我为这个因子水平创建一个子集并应用相同的代码时,我得到了想要的结果。但是,我不知道如何将这种相同的转换(具有相同的值)应用于其他因子水平。
bestNormalize 有没有办法考虑因子水平或将具有相同值的相同转换应用于不同的子集?
javascript - 如何使用 JavaScript 将具有层次关系的 csv 文件转换为对象?
我有一个包含组织层次结构数据的 csv 文件,其中一个字段是该员工下属 id 的 id。
csv 文件看起来像这样:
我正在寻找的最终结果是这样的:
到目前为止我已经尝试过:到目前为止,我已经使用 csvtojson 包将 csv 文件解析为一个数组,这给了我这个:
我认为转换这些数据需要一些递归,但我对此并不擅长,感谢任何帮助!
编辑:此外,我对列在 csv 中的外观很灵活,如果无论如何通过更改也很酷的列来使这种转换更容易的话。
编辑:我正在考虑在 csv 中生成一份报告,我认为这会更容易;
编辑:在我更改了 csv 列之后,我能够想出一个解决方案。会把它贴在下面,以防其他人在未来寻找这个。
我什至不能 100% 确定我是如何来到这里的,这只是大量的试验。它似乎正在工作,但如果有人发现任何错误,请指出。也非常感谢不同的方法。我要全部学习!我是stackoverflow的新手,热烈欢迎!
python - 如何绘制带有注释的水平堆积条
我在 matplotlib 上使用离散分布示例作为水平条形图示例离散分布作为水平条形图来创建一个图表,显示 2017 年什罗普郡选举中的投票份额。
然而,因为我不知道如何操作数据,我不得不在程序中手动输入我的数据,这显然是我自己的无知造成的。
我在 CSV 文件中有相关数据,因此可以将其作为数据框加载。
- CSV 对每个选区都有一行,其中有 63 列,每个党派(保守党、LD、工党、格林、独立党)的投票百分比列有 5 个实质性列。
我想要关于如何更改数据形式的建议,使其类似于此图表的输入。
我不确定它是什么,但似乎可能是带有键和值的字典类型:
我的数据部分内容如下:
当作为熊猫数据框输入时,我试图直接从 csv 文件中获取要像这样格式化的数据。
尝试了 values 方法和
to_dict
方法,虽然他们得到的数据看起来相似,但它们并不完全正确。- 我认为有必要将数据划分为键和值,但这就是我的知识达到极限的地方。
python - 快速删除包含其他列表元组的元组
我想删除列表 A 中包含列表 B 中的元组的所有元组。
这通常是一件小事,但我在列表 A 中有 1000 万条记录,在列表 B 中有 20 万条记录。我当前的脚本(见下文)非常慢(每次扫描列表 A 约 10 秒)。
例子:
当前的脚本很慢:
data-transform - Pega Child 到父数据的传播
如何使用数据转换将子数据复制到父案例?
如果有人可以提供逐步解决方案。
我在子案例中使用了数据转换和更新形状,它仍然无法正常工作。