问题标签 [data-manipulation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
1469 浏览

r - 将一列变成行

例如,我有这个数据

但这些是 3 列。看起来像这样:

我需要的是一个看起来像这样的表:行列是 RowNrs,列列是 ColumnNrs 和它的数据是尊重的地方

有没有办法将“数据集”操纵到这个表中?

0 投票
4 回答
909 浏览

r - 循环根据 R 中的其他情况创建一个新变量(非常基本)

我有一个包含三个变量的数据框:IDgroupnominated_ID. 我想知道group那个nominated_ID属于。

我想象对于每种情况,我们取nominated_ID,找到它等于 的情况ID,然后将nominated_Group原始情况下的group变量设置为匹配情况下的变量。(如果没有匹配,设置为NA)

如果可以在没有循环的情况下完成此操作,我不会感到惊讶,因此我对解决方案持开放态度。非常感谢你的帮助。知道我在发布之前确实尝试过寻找类似的问题。

0 投票
1 回答
200 浏览

r - R中的简单数据操作

@Aniko 指出,查看我的问题的一种方法是,我需要找到图的连通分量,其中顶点称为组和变量group,并nominated_group表示这两个组之间的边。我的目标是创建一个parent_Group索引连接组件的变量。或者正如我之前所说:

我有一个包含四个变量的数据框:IDgroup、 和nominated_ID、 和nominated_Group

考虑姊妹组:如果数据中至少有一个案例 group==A 且指定组==B,则 A 组和 B 组是姊妹组,反之亦然。

我想创建一个变量parent_group,它对每组姐妹组都具有唯一值。换句话说,不同parent_groups的案件之间不应出现提名。制作parent_group序列号似乎是个好主意。

非常感谢我在这里收到的帮助!我不能在这里真正做出贡献,但请注意,我尝试在 stats.exchange 和 wikipedia 上支付它。

在我的假数据中,A 和 B 是姐妹组。无论是 ID=4 还是 ID=5 都足以证明这一点。每个小组也是他们自己的姐妹小组。的目标,即 的创建parent_group,应该parent_group为 A 或 B 中的所有案例产生一个,而parent_group对于 C 组的另一个案例

0 投票
2 回答
55859 浏览

r - 删除具有 nan 值的行

比方说,例如,我有这个数据:

现在我想删除其中包含 NaN 值的行:第 1 行和第 4 行。但我不知道这些行在哪里,如果它是 100.000+ 行的数据集,所以我需要用函数找到它们并删除完整的行。

谁能指出我正确的方向?

0 投票
3 回答
785 浏览

r - 删除数据集中的行出错

我有以下数据集:

现在我想删除数字特征== 0的所有行(这里没有,但在其他数据集中有)当我使用以下命令时,我的完整数据集是空的,我做错了什么?

0 投票
2 回答
123 浏览

c# - 处理和合并两个大文件

我需要读入两个大文件(超过 125 MB)。每个文件都包含具有相似数据的记录。我需要找到它们中的记录,然后如果记录的字段不匹配,我需要用文件一中的记录中包含的字段覆盖文件二中的记录。

例如,第一个文件具有以下字段:

第二个文件具有以下字段:

因此,如果文件 1 中的记录与文件 2 中的记录具有相同的 ACCT 编号,则文件 2 中的 Bal、Int 和 Rate 需要被文件 1 中的 Bal、Int 和 Rate 的值覆盖。

某些记录不会在每个文件中。我需要创建的输出文件是文件二中的所有记录,如果记录不在文件一中,那么它将按原样写入文件,但随后将包含需要更改的记录。

我尝试了许多不同的选项,但大多数都不足以处理大文件。解决这个问题的正确方向是什么?提前感谢您的帮助。

0 投票
2 回答
1712 浏览

r - 使用列表中的数据框:删除变量,添加新变量

使用两个数据框 df1df2定义一个列表dat

我想在每个数据框中删除变量a。接下来,我想添加一个变量,其中包含来自外部数据帧的每个数据帧的 id,例如:

为了删除不必要的变量,我尝试了这个没有运气:

也不知道如何添加id。

我也尝试过,也许更合适:

我发现令人困惑的是str(out[1])返回一个列表,str(out[[1]])返回一个数据框。我认为这可能与它有关。

0 投票
3 回答
433 浏览

list - 在数据框列表内的数据框中编辑变量中的单元格条目

定义:

我想从每个数据框中的 b 列中删除 M 字符。

在一个简单的框架中:

但是在嵌套中,如何进行?这是一个抱歉的尝试:

0 投票
2 回答
2504 浏览

r - 在每个变量上使用不同的函数逐组折叠数据

定义

英石

我的数据没有因子,所以我将因子转换为字符:

我想通过 V1 保持“折叠”数据框:

  • V2的最大值
  • V3 的平均值
  • V4 的模式(这个值在 V1 组中实际上并没有改变,所以 first、last 等也可能会改变。)

请注意,这是一个普遍的问题,例如我的数据集要大得多,并且在折叠时我可能想要使用不同的函数(例如,last、first、min、max、variance、st.dev. 等用于不同的变量)。因此,函数参数可能会很长。

在这种情况下,我想要以下形式的输出:

0 投票
3 回答
3024 浏览

r - 创建一个按组捕获最频繁出现的变量

定义:

英石

我想创建第三个变量,其中包含stfreq中最常见的观察v1结果id