问题标签 [splitstackshape]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1330 浏览

r - 使用 R 和 cSplit() 将文本拆分为单词

我正在尝试将一系列句子拆分为单独的单词,即对文本进行标记。

我找到了一个 R 包splitstackshape,它能够做我想做的事,几乎......它将输出截断为第一行和最后 5 行。

无论如何,这是我需要做的:

输出:

也就是说,我需要单独的行中的单词,但要与它所属的句子的 ID 一起。

我在尝试cSplit(data, "text", " ", "long"),但它截断了..


更新。仅供参考,是相反的方法

0 投票
2 回答
3284 浏览

r - 在R中使用多个分隔符拆分数据帧

预期产出

我试过这个方法。。

我想知道是否有其他更简单的方法可以做到这一点

0 投票
5 回答
1475 浏览

r - Splitting a single column into multiple observation using R

I am working on HCUP data and this has range of values in one single column that needs to be split into multiple columns. Below is the HCUP data frame for reference :

The desired output should be :

My approach to this problem is using the package splitstackshape and using this code

This approach leads to memory issues. Is there a better approach to this problem?

Some comments :

  • The data has many letters apart from "T".
  • The letter can be either in the front or at the very end but not in between two numbers.
  • There is no change of letter from "T" to "U" in one single range
0 投票
1 回答
1072 浏览

r - 如何将 2x2 列联表转换为长格式数据框?

如何将 2x2 列联表转换为长格式数据框?我试过这个:

我得到的是这个,而不是按 Drug vs. No_Drug 分类的 164 行的数据框

0 投票
1 回答
62 浏览

r - 无法从数据框中删除列,输出变成逻辑向量

data.frame我从cSplit函数中得到的似乎有问题。

NAs如果不使用以下代码,我将无法提取列:

输出是一个Named logi向量,而不是一个data.frame没有具有 NA 行的列的向量。

该问题主要是由于包的功能的data.frame输出。使用该软件包也会出现此问题。cSplitsplitstackshapedata.table

我尝试创建一个新的来提取函数输出的data.frame列,并且上面的代码工作正常。data.framecSplit

任何想法cSplit' 的data.frame输出有什么问题?

这是我的代码示例:

0 投票
2 回答
543 浏览

r - 一 复变量的热编码

我有一个数据集,其中我的所有数据都是分类的,我想使用一种热编码进行进一步分析。

我想解决的主要问题:

  • 一些单元格在一个单元格中包含许多文本(下面将举例说明)。
  • 一些数值需要更改为因子以进行进一步处理。

具有 3 个标题的数据年龄、信息和目标

我想为上面显示的所有这些变量创建一个热编码,所以它看起来像下面这样:

我检查过的一些关于 SO 的问题是thisthis

0 投票
2 回答
916 浏览

r - cbind 1:nrows 相同的 ID 变量值到原始 data.frame

我有一个大数据框,其中变量 id(第一列)在第二列中以不同的值重复出现。我的想法是订购数据框,将其拆分为一个列表,然后应用一个函数,该函数将序列 1:nrows(variable id) 绑定到每个组。到目前为止我的代码:

但这给了我一个错误:参数意味着不同的行数。

你能详细说明吗?

我想要的是:

...等等。

这是我的代码:

情节是这样的:

单元格区域随时间变化

大多数细胞的面积增加,只有一些减少。这只是第一次尝试可视化我的数据,所以你看不太清楚的是,由于细胞分裂,这些区域会周期性地下降。

附加问题:

有一个问题我事先没有考虑到,那就是在细胞分裂后,一个新的细胞被添加到 data.frame 并被传递给初始索引 1(你在图像中看到所有细胞都从 .id =1,不迟),这不是我想要的——它需要继承其创建时间的索引。我想到的第一件事是我可以使用一种解析机制来为新添加的单元格变量完成这项工作:

你有更好的主意吗?谢谢。

有一个可以缓解问题的边界条件:开始时的固定单元数(32)。另一种解决方案是在创建最后一个子单元之前删除所有数据。

更新:其他问题已解决,代码如下:

0 投票
0 回答
54 浏览

r - 拆分字符串固定宽度

抱歉这个肯定是基本的问题,但我真的找不到明确的答案:

我有一个数据框,我试图按固定数量的字符进行拆分

我以前一直在使用:

...拆分,但如果数据中有多个“拆分内容”实例,则会导致问题。

我想按前四个字符拆分此名称列(因为拆分“。”会导致名称有多个“。”的问题。

数据

0 投票
2 回答
661 浏览

r - R cSplit 仅使用字符串中的第一个分隔符

我有一个包含两列的长列表,其中我在多行中的每一列中都有相同的字符串。所以我过去常常使用paste连接-,然后用setDT它们的频率返回唯一的连接集。

现在我想反转我的串联。

我试过了:

但是,在我的第二列中,有时-字符串中有多个 '。

为了解决这个问题,我希望 cSplit 只使用第一个-分隔符。

例子:

使用上述cSplit将返回:

我想:

0 投票
1 回答
222 浏览

r - splitstackshape pkg - concat.split.expanded 通过强制错误返回 NA

我正在按照此处的说明从字符串变量中的虚拟变量尝试将一列字符串(由空格分隔的单词)转换为虚拟变量(0-1 表示该行中的字符串中未使用/使用的单词)使用concat.split.expanded 但得到一堆以下错误:

前面有一个

我很确定要转换的列中没有任何 NA,更不用说那么多了。不知道如何解决这个问题。谢谢!

我一直在运行的命令会产生问题:

产生有或没有填充的问题=