问题标签 [data-transform]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
283 浏览

python - 使用 Amazon Glue 将行转换为列

我正在使用 AWS Glue 转换一组数据,这些数据基于一个列的值具有多行。我正在尝试旋转数据并减少行数。

我相信我可以为此使用 Amazon Glue。但是,这是我第一次使用 Glue。我正在努力寻找一个好的方法来做到这一点。一些 pySpark 扩展转换看起来很有希望(可能是“映射”或“关系化”)。什么是好方法?

例如 :

0 投票
2 回答
147 浏览

azure-machine-learning-studio - 如何管理多个数据集 - Azure 机器学习

是否有任何模块可以接受多个数据集进行处理?例如“拆分数据”、“编辑元数据”和“选择数据集中的列”不接受多个数据集作为输入。

这就是我所做的:我的模型中有几个数字和分类变量。我使用“转换为指标变量”模块为我的数据创建虚拟变量。如何将指标变量和数值变量包含在一个数据集中,以便为我的模型拆分数据?

截至目前,我正在使用 Python 进行数据整理,并在 Azure MLS 中移动数据集以进行建模。理想情况下,我需要在 Azure MLS 中处理数据。

我希望有一个模块可以合并 Azure MLS 中的分类分级变量和数值变量

0 投票
1 回答
418 浏览

spotfire - spotfire 使用 over 函数计算列

我想创建一个计算列“indicateur”,当我有一个 True 时跟踪布尔值,我将指标增加 1,但是我希望假行具有最后一个真指标的值。

当我传递给一个新 ID 时,增量从零开始。

我已经使用 over 函数尝试了一些点火表达式,但没有得到正确的结果

在此处输入图像描述

0 投票
1 回答
170 浏览

r - 在年度数据中插入与每个月对应的行

我有一个数据框,其中包含 2014 年到 2018 年的年度数据。我希望将此数据框扩展为月度值,并且基本上将每个变量的值除以 12 作为每个月的值。 请注意:到目前为止,我的数据框中没有月份列。所以,如果有 5 个产品,我有 5*5 行和 5 列:“year”、“Product_ID”、“Var1”、“Var2”和“Var3”作为列。

最终,我想要 5*12 行和 6 列并插入“月”。

我已经尝试过这段代码,但它不起作用:

有什么建议么?

0 投票
1 回答
73 浏览

python - 合并连续列中相同变量的级别

我有一个 csv 数据文件,它有 2 个标题,这意味着一个标题作为问题,第二个作为子标题,它具有多个级别或主标题的答案。当前的 csv 如下表所示

我需要将其转换为下表

有人可以帮我弄这个吗?

这就是我的数据的样子 在此处输入图像描述

我的输入文件看起来像这样 在此处输入图像描述 ,这就是我的最终输出的样子 在此处输入图像描述

0 投票
1 回答
67 浏览

r - 使用 tidyr 将行中的两列数据转换为 R 中的多列

我正在尝试计算要在推荐系统中使用的产品和用户之间的差异。

数据为两列多行,需要转换为行作为用户和列作为产品。

我尝试了 reshape 包中的 cast 函数,但没有成功。

我想将其转换为这种格式:

我现在的主要问题是当我们有重复记录时,它应该只计算一次,所以我们有 0-1 值。

0 投票
2 回答
596 浏览

powerbi - 使用 RegEx 在 Power Bi 中创建新列

我对 Power BI 比较陌生,想根据列生成一个新的。新列的内容应基于另一列的第一个值。例如:

如您所见,数字的第一个值决定了将哪个国家添加到新列中。在 SQL 中,我知道我可以使用这样的东西:

等等,但 Power BI 可以吗?非常感谢。

编辑:

我的附加列表如下所示:

等等...

我想我可以使用这样的东西:

0 投票
1 回答
1174 浏览

python - 根据其他列的唯一值从数据框中选择行?

我的数据框的一列具有如下所示的值:

对于该列中的每个唯一值,这是 99:1。

我现在想创建一个新的数据框,使其具有该数据框的 1.0 的 60% 和 0.0 的 40% 以及所有行(当然行数更少)。

我尝试使用如下所示的类strat函数将其拆分,但没有获得每个唯一值比例相等的数据帧。train_test_splitsklearn.model_selection

这就是上面代码的结果,行数没有变化。

如何选择行数减少的数据集子集,同时保持每个host_has_profile_pic变量类的适当比例。

完整数据集链接:https ://www.kaggle.com/stevezhenghp/airbnb-price-prediction

0 投票
1 回答
576 浏览

sql-server - 根据另一列过滤一列中的数据值,然后将值插入到同一个 SQL 表中的不同列中

这是我试图使用 SSIS 和条件拆分转换来解决的一个难题。我有一个 .csv 文件,其中包含每个唯一用户的一行中的属性数据以及另一列中每个属性的值。IE:

或者类似的东西。我需要将属性拆分为包含属性类型数据的列。所以期望的结果是:

然后我需要将它们插入到一个带有新列的 SQL 表中。

我能够通过对一列的条件拆分转换完美地完成此操作(例如,使用表达式 Attribute == "ID",然后将 .csv 源中的整个 Attribute 列映射到 SQL 目标表中的 ID 列)但问题在于其他列。我似乎无法让 Union All 转换来做我想做的事情。

有什么建议吗?

0 投票
1 回答
34 浏览

pandas - 对于每一行,我想将每一列的第一行作为新行

我正在使用 Python Pandas,我有一个包含许多行的下表:

我想要做的是对于 every index(row),从行中的每一列中获取和取值,xy从中创建新行,并具有如下内容:

我尝试这样做的原因是我想在这两个日期之间进行插值

我尝试了不同的合并,重新合并和玩,dataframe但它并没有真正帮助