r - 使用 R 和 cSplit() 将文本拆分为单词

Question

我正在尝试将一系列句子拆分为单独的单词，即对文本进行标记。

我找到了一个 R 包splitstackshape，它能够做我想做的事，几乎......它将输出截断为第一行和最后 5 行。

无论如何，这是我需要做的：

id text
1 Lorem ipsum dolor sit amet
2 consectetur adipiscing elit
3 Donec euismod enim quis 
4 nunc fringilla sodales
5 Etiam tempor ligula vitae 
6 pellentesque dictum
7 Quisque non justo scelerisque 
8 est facilisis congue quis vel
9 Phasellus ex lorem
10 eleifend at magna vel
11 egestas eleifend massa

输出：

id word
1 Lorem
1 ipsum
1 dolor
1 sit
1 amet
2 consectetur
2 adipiscing
...

也就是说，我需要单独的行中的单词，但要与它所属的句子的 ID 一起。

我在尝试cSplit(data, "text", " ", "long")，但它截断了..

更新。仅供参考，这是相反的方法

score 3 · Accepted Answer

该cSplit函数返回一个data.table.

您所描述的是data.tables 的默认打印行为。要查看此操作，请尝试以下操作：

library(data.table)
as.data.table(airquality)
print(as.data.table(airquality))

print(as.data.table(airquality), nrows = Inf)

因此，要显示完整的表格，您可以尝试：

library(splitstackshape)
print(cSplit(data, "text", " ", "long"), nrows = Inf)

r - 使用 R 和 cSplit() 将文本拆分为单词

1 回答 1

Related

Reference