问题标签 [splitstackshape]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
46 浏览

r - Splitting numerals from string in data frame

I have a data frame in R with a column that looks like this:

In order to make working with the dataframe slightly easier I wanted to split up the venue column into two columns, location and year, like so:

I have tried various variations of the cSplit() function to achieve this:

None of these worked so far for me. I'd appreciate it if anyone could point me in the right direction.

0 投票
1 回答
39 浏览

r - 总行数不包含因子且值不为零

我有以下数据

df

我希望计算我没有因子且值为零的总数。所以我想要的输出将是:

例如,因为a它显示了我们没有a且值不为零的总数等于 1。在第 2 行中只有一次我们没有a并且值不为零。(希望清楚,如果需要更多示例,请告诉我)

我尝试了以下代码,但输出b错误。有谁知道为什么?

此代码导致以下输出不正确b

0 投票
3 回答
2031 浏览

r - 将多列拆分为行

我正在处理一组非常原始的数据,需要对其进行整形才能使用它。我正在尝试根据分隔符拆分选定的列'|'

是否可以将数据框拆分为一个,最终看起来像这样。

到目前为止,我已经尝试了各种不同的字符串拆分功能,但运气不佳:(

有人可以帮忙吗?

0 投票
1 回答
216 浏览

r - R动态创建数据表列

我有这个名为 tmp.df.lhs.denorm 的数据表,我在前面提供了前 2 行:

注意列 lhs_1 和 lhs_2 是 str split 在列规则上的产物。

我的问题是,对于不同的数据,列规则可能包含由逗号分隔的不同数量的规则,例如,我可以得到 3 列 lhs_1 、 lhs_2 和 lhs_3 等等,这取决于我在列规则中有多少个逗号。解决方案是确定固定数量的 lhs_* 列(我的代码中的参数,假设为 6),其中这个特定示例 dt tmp.df.lhs.denorm 将与名为 lhs_3、lhs_4 的额外 4 个空列合并, lhs_5 和 lhs_6。任何帮助表示赞赏

0 投票
1 回答
455 浏览

r - 如何将特定函数应用于R中的列范围(但将其单独应用于每一列)?

我使用的数据看起来如何(它是 SNP 数据):

在案例 2 之后我希望它如何(由于第 2 列有多个字符,第 3 行被删除,并且所有列都被分成 2)

案例 1
我现在使用的

我希望它是

问题是该函数正在计算所有列 5:7 并删除每一行。我想要同样的,但对每一列都这样做,而不是一起做。
案例 2 我的代码使用库

为每列运行拆分单元格,这是第 6 列的单元格

我对所有列问题都做同样的事情我想对所有列潜在的解决方案做同样的事情:不同类型的循环,但我不能让它工作。任何帮助将不胜感激

0 投票
2 回答
376 浏览

r - 修改 cSplit_e 函数以考虑多个值

我了解“splitstackshape”中的“cSplit_e”可用于将一列下的多个值转换为具有二进制值的分隔列。我正在处理一个用于计算 tf-idf 的文本问题,并且不必在列下拥有所有唯一值。例如,

输出(df)

对于上面的例子,如果我们考虑 doc-1,那么当 "hello" 出现两次时,cSplit_e 会将 doc_text 转换为 5 个单独的列,其值为 "1"。有没有办法修改这个函数来解释重复值?

本质上,这就是我想要实现的目标:给定一个数据框

docname ftype doc_text 1 mw hello, hi, how, are, you, hello 2 gw hi,yo,man 3 me woha,yo, yoman

我想根据用“,”分隔的列值将 doc_text 转换为多列,并获得它们各自的频率。所以结果应该是

如果有人知道如何使用“splitstackshape”或其他方式完成此操作,我将不胜感激。最终目的是计算 tf-idf。

谢谢。

0 投票
0 回答
30 浏览

r - 使用 cSplit R 拆分

在我的数据集中,我有一列带有井号标签和用逗号分隔的名称(即#xxx、@rrr、...)。我想为每个 has-tag/name 将其拆分为一列。我用了:

并得到错误:

( indt [.data.table, , splitCols, with = FALSE) 中的错误:未找到列:#ForaManoel、@FernandinhaDoRT:、#ForaManoel、#FicaEmilly、@PortalLaRavena:、@emillyaraujoof、#ForaManoel、@opakaique:、#FORAEMILLY、 #foramanoel,#BBB17,#ForaEmilly,#ForaManoel,@oDanielFontes:,#ForaManoel,@HugoGloss:,#F

有什么帮助吗?

谢邀,

里卡多。

0 投票
1 回答
245 浏览

r - 如何拆分一行中的每一列以分隔R中的列

我想将输入数据中的第 4 行中的每一列拆分为将第一列分隔到另一列下方,如专家输出所示

输入

预期产出

0 投票
1 回答
134 浏览

r - R将BigCartel csv文件中的列拆分为dataframe或data.table中的长格式

Big Cartel 有一个选项可以将订单导出到 csv 文件中。然而,结构对于我需要做的分析来说并不是很好。

这是 Big cartel csv 订单下载中的列和行的子集(还有其他列对手头的问题并不重要)。

items 列可以有多个以分号 (;) 作为分隔符的“行项目”。每个“line-item”有五个用竖线(|) 分隔的属性,即product_name、product_option_name、数量、价格和total(即针对该行)。有一列,“项目计数”,它给出了“行项目”的数量加上(订单)总价格、运输、税收和折扣的列。为了进行分析,我想要以下长格式的数据,其中运费、税金和折扣也被视为“产品项目”。

使用 r:data.table 中的 tstrsplit() 和 r:splitstackshape 中的 cSplit() 似乎是解决方案,但我无法正确使用语法。我也尝试过 tidyverse/dplyr 函数分离/传播等,但我无法获得我需要的输出。

我一直在谷歌搜索和搜索所有 SO 问题 - 有一些解决方案(这个R:Split Variable Column into multiple (unbalanced) columns by comma)很接近,但没有一个能让我到达那里,因为大多数人都假设一个宽格式而不是“长”。

0 投票
2 回答
173 浏览

r - 当字段嵌入分隔符时,cSplit 不起作用

我正在使用 cSplit 将一列拆分为三个单独的列。分隔符是“/”

但是,我的一个字段嵌入了“/”分隔符。第三行的第三个元素应该是并且在拆分后保持为“f/j”。

当我在以下示例中尝试时,它会创建一个额外的(第四)列

当我在包含超过 5,000 行的原始数据集中尝试它时,会产生以下错误:

fread(x, sep[i], header = FALSE) 中的错误:

预期 3 列,但第 2307 行在处理所有列后包含文本。使用 fill=TRUE 再试一次。另一个原因可能是 fread 在区分一个或多个在不平衡非转义引号内嵌入了 sep='/' 和/或 '\n' 字符的字段的逻辑失败了。如果 quote='' 没有帮助,请提出问题以确定是否可以改进逻辑。